Legge dei grandi numeri
La legge dei grandi numeri , detta anche teorema di Bernoulli (in quanto la sua prima formulazione è dovuta a Jakob Bernoulli ), descrive il comportamento della media di una sequenza di
n
{\displaystyle n}
prove di una variabile casuale , indipendenti e caratterizzate dalla stessa distribuzione di probabilità (
n
{\displaystyle n}
misure della stessa grandezza,
n
{\displaystyle n}
lanci della stessa moneta, ecc.), al tendere ad infinito della numerosità
n
{\displaystyle n}
della sequenza stessa.
Secondo la legge dei grandi numeri è ragionevolmente sicuro che la media, che determiniamo a partire da un numero sufficiente di campioni, sia sufficientemente vicina alla media vera, ovvero quella calcolabile teoricamente. Che cosa significhi "ragionevolmente sicuri" dipende da quanto vogliamo essere precisi nel nostro test: con dieci prove, avremmo una stima grossolana, con cento, ne otterremmo una molto più precisa, con mille, ancora di più, e così via: il valore di
n
{\displaystyle n}
che siamo disposti ad accettare come sufficiente dipende dal grado di casualità che riteniamo necessario per il dato in questione.
In termini generici, per la legge dei grandi numeri si può dire:
che la media della sequenza è un'approssimazione, che migliora al crescere di
n
,
{\displaystyle n,}
della media della distribuzione, e
che, viceversa, si può prevedere che sequenze siffatte mostreranno una media tanto più spesso e tanto più precisamente prossima alla media della distribuzione quanto più grande sarà
n
{\displaystyle n}
.
Un caso particolare di applicazione della legge dei grandi numeri è la previsione probabilistica della proporzione di successi in una successione di
n
{\displaystyle n}
realizzazioni indipendenti di un evento
E
,
{\displaystyle E,}
ossia la frequenza di
E
{\displaystyle E}
nelle
n
{\displaystyle n}
misurazioni: per
n
{\displaystyle n}
che tende a infinito, la proporzione di successi converge alla probabilità di
E
{\displaystyle E}
.
Unita a questa si ha un'altra nozione interessante, ossia la legge dei piccoli numeri, che va al di là del concetto di equiprobabilità e considera la dimensione del campione rispetto ai possibili eventi e conseguenti esiti. In particolare, a seguito di esperimenti ripetuti considerando un campione più piccolo, è molto più semplice allontanarsi dal valore atteso , banalmente perché avendo meno valori da considerare vi è più probabilità che essa si approssimi ad un certo valore, sottostimando il numero di campioni per stime accurate. Essa fu teorizzata da Kahneman.[ 1]
Se, data una successione di variabili casuali
X
1
,
X
2
,
…
,
X
n
,
…
{\displaystyle X_{1},X_{2},\ldots ,X_{n},\ldots }
indipendenti e identicamente distribuite con media (finita)
μ
{\displaystyle {\mu }}
, si considera la media campionaria
X
¯
n
=
X
1
+
X
2
+
⋯
+
X
n
n
{\displaystyle {\bar {X}}_{n}={\frac {X_{1}+X_{2}+\cdots +X_{n}}{n}}}
la legge (forte) dei grandi numeri afferma che
P
(
lim
n
→
∞
X
¯
n
=
μ
)
=
1
,
{\displaystyle \operatorname {P} \left(\lim _{n\rightarrow \infty }{\bar {X}}_{n}=\mu \right)=1,}
ossia lo stimatore media campionaria converge quasi certamente al valore atteso comune delle
X
i
{\displaystyle X_{i}}
.
Se, data una successione di variabili casuali
X
1
,
X
2
,
…
,
X
n
,
…
{\displaystyle X_{1},X_{2},\ldots ,X_{n},\ldots }
aventi la stessa media
μ
{\displaystyle {\mu }}
, la stessa varianza finita e indipendenti, si considera la media campionaria
X
¯
n
=
X
1
+
X
2
+
⋯
+
X
n
n
{\displaystyle {\bar {X}}_{n}={\frac {X_{1}+X_{2}+\cdots +X_{n}}{n}}}
la legge (debole) dei grandi numeri afferma che per ogni
ε
>
0
{\displaystyle \ \varepsilon >0}
:
lim
n
→
∞
P
(
|
X
¯
n
−
μ
|
<
ε
)
=
1.
{\displaystyle \lim _{n\rightarrow \infty }\operatorname {P} \left(\left|{\bar {X}}_{n}-\mu \right|<\varepsilon \right)=1.}
ossia la media campionaria converge in probabilità al valore atteso comune alle
X
i
{\displaystyle X_{i}}
.
Sia
{
(
Ω
i
,
A
i
,
P
i
)
}
i
∈
N
{\displaystyle \{(\Omega _{i},{\mathcal {A}}_{i},\operatorname {P} _{i})\}_{i\in \mathbb {N} }}
una successione di spazi di probabilità . Si consideri lo spazio prodotto
(
Ω
,
A
,
P
)
{\displaystyle (\Omega ,{\mathcal {A}},\operatorname {P} )}
e in esso una successione bernoulliana di eventi (stocasticamente indipendenti e con probabilità costante
p
{\displaystyle p}
)
{
E
k
}
k
∈
N
⊆
A
{\displaystyle \{E_{k}\}_{k\in \mathbb {N} }\subseteq {\mathcal {A}}}
. Assegnato un elemento
ω
∈
Ω
{\displaystyle \omega \in \Omega }
si definisce la frequenza di successo in
n
{\displaystyle n}
prove
ϕ
n
(
ω
)
=
N
n
n
{\displaystyle \phi _{n}(\omega )={\tfrac {N_{n}}{n}}}
, dove
ϕ
n
:
Ω
→
R
{\displaystyle \phi _{n}\colon \Omega \to \mathbb {R} }
e
N
n
=
#
{
i
:
ω
∈
E
i
}
i
=
1
n
{\displaystyle N_{n}=\#\{i:\omega \in E_{i}\}_{i=1}^{n}}
indica il numero di successi ottenuti in
n
{\displaystyle n}
prove.
Nelle condizioni sopra enunciate, si vuole dimostrare che:
∀
ε
∈
R
0
+
,
lim
n
→
∞
P
{
ω
∈
Ω
:
|
ϕ
n
(
ω
)
−
p
|
>
ε
}
=
0
{\displaystyle \forall \varepsilon \in \mathbb {R} _{0}^{+},\lim _{n\to \infty }\operatorname {P} \{\omega \in \Omega :|\phi _{n}(\omega )-p|>\varepsilon \}=0}
.
Fissato
ε
{\displaystyle \varepsilon }
, si consideri la disuguaglianza di Bienaymé-Čebyšëv :
P
{
ω
∈
Ω
:
|
ϕ
n
(
ω
)
−
E
(
ϕ
n
)
|
>
ε
}
≤
var
(
ϕ
n
)
ε
2
{\displaystyle \operatorname {P} \{\omega \in \Omega :|\phi _{n}(\omega )-\operatorname {E} (\phi _{n})|>\varepsilon \}\leq {\frac {\operatorname {var} (\phi _{n})}{\varepsilon ^{2}}}}
;
poiché
N
n
{\displaystyle N_{n}}
è distribuito in modo binomiale , il suo valore atteso è
E
(
N
n
)
=
n
p
,
{\displaystyle \operatorname {E} (N_{n})=np,}
e la sua varianza è
var
(
N
n
)
=
n
p
(
1
−
p
)
;
{\displaystyle \operatorname {var} (N_{n})=np(1-p);}
abbiamo allora che il valore atteso e la varianza di
ϕ
n
{\displaystyle \phi _{n}}
sono, rispettivamente:
E
(
ϕ
n
)
=
E
(
N
n
n
)
=
E
(
N
n
)
n
=
p
,
{\displaystyle \operatorname {E} (\phi _{n})=\operatorname {E} \left({\frac {N_{n}}{n}}\right)={\frac {\operatorname {E} (N_{n})}{n}}=p,}
var
(
ϕ
n
)
=
var
(
N
n
n
)
=
var
(
N
n
)
n
2
=
p
(
1
−
p
)
n
.
{\displaystyle \operatorname {var} (\phi _{n})=\operatorname {var} \left({\frac {N_{n}}{n}}\right)={\frac {\operatorname {var} ({N_{n}})}{n^{2}}}={\frac {p(1-p)}{n}}.}
Sostituendo nella disuguaglianza, si ottiene:
P
{
ω
∈
Ω
:
|
ϕ
n
(
ω
)
−
p
|
>
ε
}
≤
p
(
1
−
p
)
n
ε
2
,
{\displaystyle \operatorname {P} \{\omega \in \Omega :|\phi _{n}(\omega )-p|>\varepsilon \}\leq {\frac {p(1-p)}{n\varepsilon ^{2}}},}
e, passando al limite per
n
→
+
∞
{\displaystyle n\to +\infty }
,
lim
n
→
∞
P
{
ω
∈
Ω
:
|
ϕ
n
(
ω
)
−
p
|
>
ε
}
≤
0.
{\displaystyle \lim _{n\to \infty }\operatorname {P} \{\omega \in \Omega :|\phi _{n}(\omega )-p|>\varepsilon \}\leq 0.}
Ma la probabilità non può essere negativa:
P
:
A
→
[
0
,
1
]
,
{\displaystyle \operatorname {P} \colon {\mathcal {A}}\to [0,1],}
da cui la tesi.
La legge debole dei grandi numeri non assicura che, comunque scelto
ε
>
0
{\displaystyle \varepsilon >0}
, quasi certamente a partire da un certo
n
ε
{\displaystyle n_{\varepsilon }}
il valore
|
ϕ
n
−
p
|
{\displaystyle |\phi _{n}-p|}
si mantenga minore o uguale a
ε
{\displaystyle \varepsilon }
, ossia che l'insieme
{
ω
∈
Ω
:
∃
n
ε
:
∀
n
>
n
ε
,
|
ϕ
n
(
ω
)
−
p
|
>
ε
}
{\displaystyle \{\omega \in \Omega :\exists n_{\varepsilon }:\forall n>n_{\varepsilon },|\phi _{n}(\omega )-p|>\varepsilon \}}
sia
P
{\displaystyle \operatorname {P} }
-trascurabile. Infatti, esplicitando la definizione di limite, si trova:
∀
ε
>
0
,
∀
η
>
0
,
∃
n
ε
,
η
:
∀
n
≥
n
ε
,
η
,
P
{
ω
∈
Ω
:
|
ϕ
n
(
ω
)
−
p
|
>
ε
}
≤
η
,
{\displaystyle \forall \varepsilon >0,\forall \eta >0,\exists n_{\varepsilon ,\eta }:\forall n\geq n_{\varepsilon ,\eta },\operatorname {P} \{\omega \in \Omega :|\phi _{n}(\omega )-p|>\varepsilon \}\leq \eta ,}
ma niente sembra assicurare che
n
ε
,
η
{\displaystyle n_{\varepsilon ,\eta }}
non diverga per
η
→
0
{\displaystyle \eta \to 0}
.
Ciò è invece assicurato, nelle medesime condizioni, dalla proposizione:
P
{
ω
∈
Ω
:
lim
n
→
∞
ϕ
n
(
ω
)
=
p
}
=
1
,
{\displaystyle \operatorname {P} \{\omega \in \Omega :\lim _{n\to \infty }\phi _{n}(\omega )=p\}=1,}
che, in effetti, implica sia
∀
ε
∈
R
0
+
,
P
{
ω
∈
Ω
:
∃
n
ε
:
∀
n
>
n
ε
,
|
ϕ
n
(
ω
)
−
p
|
>
ε
}
=
0
{\displaystyle \forall \varepsilon \in \mathbb {R} _{0}^{+},\operatorname {P} \{\omega \in \Omega :\exists n_{\varepsilon }:\forall n>n_{\varepsilon },|\phi _{n}(\omega )-p|>\varepsilon \}=0}
sia la legge debole dei grandi numeri.
Dimostrazione delle due implicazioni
La legge forte può essere formulata, esplicitando la definizione di limite e passando al complementare, come:
P
{
ω
∈
Ω
:
∃
ε
∈
R
0
+
:
∀
n
ε
∈
N
,
∃
n
>
n
ε
:
|
ϕ
n
(
ω
)
−
p
|
>
ε
}
=
0
{\displaystyle \operatorname {P} \{\omega \in \Omega :\exists \varepsilon \in \mathbb {R} _{0}^{+}:\forall n_{\varepsilon }\in \mathbb {N} ,\exists n>n_{\varepsilon }:|\phi _{n}(\omega )-p|>\varepsilon \}=0}
che a sua volta è equivalente, trasformando il quantificatore esistenziale in un'unione, a:
P
(
⋃
ε
∈
R
0
+
{
ω
∈
Ω
:
∀
n
ε
∈
N
,
∃
n
>
n
ε
:
|
ϕ
n
(
ω
)
−
p
|
>
ε
}
)
=
0
{\displaystyle \operatorname {P} (\bigcup _{\varepsilon \in \mathbb {R} _{0}^{+}}\{\omega \in \Omega :\forall n_{\varepsilon }\in \mathbb {N} ,\exists n>n_{\varepsilon }:|\phi _{n}(\omega )-p|>\varepsilon \})=0}
e per monotonia di
P
{\displaystyle \operatorname {P} }
∀
ε
∈
R
0
+
,
P
{
ω
∈
Ω
:
∃
n
ε
∈
N
:
∀
n
>
n
ε
,
|
ϕ
n
(
ω
)
−
p
|
>
ε
}
≤
{\displaystyle \forall \varepsilon \in \mathbb {R} _{0}^{+},\operatorname {P} \{\omega \in \Omega :\exists n_{\varepsilon }\in \mathbb {N} :\forall n>n_{\varepsilon },|\phi _{n}(\omega )-p|>\varepsilon \}\leq }
≤
P
(
⋃
ε
∈
R
0
+
{
ω
∈
Ω
:
∀
n
ε
∈
N
,
∃
n
>
n
ε
:
|
ϕ
n
(
ω
)
−
p
|
>
ε
}
)
{\displaystyle \leq \operatorname {P} (\bigcup _{\varepsilon \in \mathbb {R} _{0}^{+}}\{\omega \in \Omega :\forall n_{\varepsilon }\in \mathbb {N} ,\exists n>n_{\varepsilon }:|\phi _{n}(\omega )-p|>\varepsilon \})}
da cui, per confronto, la prima implicazione. Trasformando anche gli altri due quantificatori in operazioni insiemistiche, si ha:
0
=
P
{
ω
∈
Ω
:
∃
n
ε
∈
N
:
∀
n
>
n
ε
,
|
ϕ
n
(
ω
)
−
p
|
>
ε
}
=
{\displaystyle 0=\operatorname {P} \{\omega \in \Omega :\exists n_{\varepsilon }\in \mathbb {N} :\forall n>n_{\varepsilon },|\phi _{n}(\omega )-p|>\varepsilon \}=}
=
P
(
⋂
n
ε
∈
N
⋃
n
>
n
ε
{
ω
∈
Ω
:
|
ϕ
n
(
ω
)
−
p
|
>
ε
}
)
=
{\displaystyle =\operatorname {P} (\bigcap _{n_{\varepsilon }\in \mathbb {N} }\bigcup _{n>n_{\varepsilon }}\{\omega \in \Omega :|\phi _{n}(\omega )-p|>\varepsilon \})=}
ma, si è in presenza dell'intersezione di una successione non crescente di insiemi, dunque per monotonia di
P
{\displaystyle \operatorname {P} }
, si ha:
=
lim
n
ε
→
∞
P
(
⋃
n
>
n
ε
{
ω
∈
Ω
:
|
ϕ
n
(
ω
)
−
p
|
>
ε
}
)
≥
{\displaystyle =\lim _{n_{\varepsilon }\to \infty }\operatorname {P} (\bigcup _{n>n_{\varepsilon }}\{\omega \in \Omega :|\phi _{n}(\omega )-p|>\varepsilon \})\geq }
e ancora:
≥
lim
n
→
∞
{
ω
∈
Ω
:
|
ϕ
n
(
ω
)
−
p
|
>
ε
}
{\displaystyle \geq \lim _{n\to \infty }\{\omega \in \Omega :|\phi _{n}(\omega )-p|>\varepsilon \}}
da cui anche la seconda implicazione, ricordando che questo è valido per ogni
ε
{\displaystyle \varepsilon }
.
Dimostrazione della legge forte
Si è già visto che l'asserto è equivalente a:
P
(
⋃
ε
∈
R
0
+
{
ω
∈
Ω
:
∀
n
ε
∈
N
,
∃
n
>
n
ε
:
|
ϕ
n
(
ω
)
−
p
|
>
ε
}
)
=
0
{\displaystyle \operatorname {P} (\bigcup _{\varepsilon \in \mathbb {R} _{0}^{+}}\{\omega \in \Omega :\forall n_{\varepsilon }\in \mathbb {N} ,\exists n>n_{\varepsilon }:|\phi _{n}(\omega )-p|>\varepsilon \})=0}
Discretizzando, come consueto nel caso dei limiti, si ha:
P
(
⋃
k
∈
N
0
{
ω
∈
Ω
:
∀
n
k
∈
N
,
∃
n
>
n
k
:
|
ϕ
n
(
ω
)
−
p
|
>
1
k
}
)
=
0
{\displaystyle \operatorname {P} (\bigcup _{k\in \mathbb {N} _{0}}\{\omega \in \Omega :\forall n_{k}\in \mathbb {N} ,\exists n>n_{k}:|\phi _{n}(\omega )-p|>{\frac {1}{k}}\})=0}
Per subadditività
P
(
⋃
k
∈
N
0
{
ω
∈
Ω
:
∀
n
k
∈
N
,
∃
n
>
n
k
:
|
ϕ
n
(
ω
)
−
p
|
>
1
k
}
)
≤
{\displaystyle \operatorname {P} (\bigcup _{k\in \mathbb {N} _{0}}\{\omega \in \Omega :\forall n_{k}\in \mathbb {N} ,\exists n>n_{k}:|\phi _{n}(\omega )-p|>{\frac {1}{k}}\})\leq }
≤
∑
k
∈
N
0
P
{
ω
∈
Ω
:
∀
n
k
∈
N
,
∃
n
>
n
ε
:
|
ϕ
n
(
ω
)
−
p
|
>
1
k
}
{\displaystyle \leq \sum _{k\in \mathbb {N} _{0}}\operatorname {P} \{\omega \in \Omega :\forall n_{k}\in \mathbb {N} ,\exists n>n_{\varepsilon }:|\phi _{n}(\omega )-p|>{\frac {1}{k}}\}}
Dunque, se quest'ultima espressione sarà nulla, si sarà dimostrata la legge forte. Essendo
P
{\displaystyle \operatorname {P} }
non negativa, si dovrà avere:
∀
k
∈
N
0
,
P
(
lim sup
n
→
∞
{
ω
∈
Ω
:
|
ϕ
n
(
ω
)
−
p
|
>
1
k
}
)
=
0
{\displaystyle \forall k\in \mathbb {N} _{0},\operatorname {P} (\limsup _{n\to \infty }\{\omega \in \Omega :|\phi _{n}(\omega )-p|>{\frac {1}{k}}\})=0}
si vuole mostrare che questo è vero considerando la sottosuccessione
ϕ
n
2
{\displaystyle \phi _{n^{2}}}
. Si vuole applicare il lemma di Borel-Cantelli , pertanto si verifica che converga l'espressione
∑
n
=
1
∞
P
{
ω
∈
Ω
:
|
ϕ
n
2
(
ω
)
−
p
|
>
1
k
}
{\displaystyle \sum _{n=1}^{\infty }\operatorname {P} \{\omega \in \Omega :|\phi _{n^{2}}(\omega )-p|>{\frac {1}{k}}\}}
Per la disuguaglianza di Bienaymé-Čebyšëv si trova:
∀
k
,
∀
n
,
P
{
ω
∈
Ω
:
|
ϕ
n
2
(
ω
)
−
p
|
>
1
k
}
≤
var
(
ϕ
n
2
)
k
2
=
k
2
p
(
1
−
p
)
n
2
{\displaystyle \forall k,\forall n,\operatorname {P} \{\omega \in \Omega :|\phi _{n^{2}}(\omega )-p|>{\frac {1}{k}}\}\leq {\textrm {var}}(\phi _{n^{2}})k^{2}=k^{2}{\frac {p(1-p)}{n^{2}}}}
da cui:
∑
n
=
1
∞
P
{
ω
∈
Ω
:
|
ϕ
n
2
(
ω
)
−
p
|
>
1
k
}
≤
p
(
1
−
p
)
k
2
∑
n
=
1
∞
1
n
2
{\displaystyle \sum _{n=1}^{\infty }\operatorname {P} \{\omega \in \Omega :|\phi _{n^{2}}(\omega )-p|>{\frac {1}{k}}\}\leq p(1-p)k^{2}\sum _{n=1}^{\infty }{\frac {1}{n^{2}}}}
Ma questa serie è notoriamente convergente. Pertanto,
∀
k
∈
N
0
,
P
(
lim sup
n
→
∞
{
ω
∈
Ω
:
|
ϕ
n
2
(
ω
)
−
p
|
>
1
k
}
)
=
0
{\displaystyle \forall k\in \mathbb {N} _{0},\operatorname {P} (\limsup _{n\to \infty }\{\omega \in \Omega :|\phi _{n^{2}}(\omega )-p|>{\frac {1}{k}}\})=0}
Si noti ora che ogni numero naturale n è compreso tra due quadrati consecutivi:
∀
n
∈
N
,
∃
q
∈
N
:
q
2
≤
n
<
(
q
+
1
)
2
{\displaystyle \forall n\in \mathbb {N} ,\exists q\in \mathbb {N} :q^{2}\leq n<(q+1)^{2}}
da cui
N
n
(
q
+
1
)
2
≤
ϕ
n
≤
N
n
q
2
{\displaystyle {\frac {N_{n}}{(q+1)^{2}}}\leq \phi _{n}\leq {\frac {N_{n}}{q^{2}}}}
si noti ora che
n
−
q
2
{\displaystyle n-q^{2}}
è la massima differenza possibile tra
N
q
2
{\displaystyle N_{q^{2}}}
e
N
n
{\displaystyle N_{n}}
, da cui:
N
q
2
≤
N
n
≤
N
q
2
+
(
n
−
q
2
)
{\displaystyle N_{q^{2}}\leq N_{n}\leq N_{q^{2}}+(n-q^{2})}
pertanto:
N
q
2
(
q
+
1
)
2
≤
N
n
(
q
+
1
)
2
≤
ϕ
n
≤
N
n
q
2
≤
N
q
2
+
(
n
−
q
2
)
q
2
{\displaystyle {\frac {N_{q^{2}}}{(q+1)^{2}}}\leq {\frac {N_{n}}{(q+1)^{2}}}\leq \phi _{n}\leq {\frac {N_{n}}{q^{2}}}\leq {\frac {N_{q^{2}}+(n-q^{2})}{q^{2}}}}
ora però si ha
n
−
q
2
≤
(
q
+
1
)
2
−
q
2
{\displaystyle n-q^{2}\leq (q+1)^{2}-q^{2}}
, dunque:
N
q
2
q
2
q
2
(
q
+
1
)
2
≤
ϕ
n
≤
N
q
2
q
2
+
(
q
+
1
)
2
−
q
2
q
2
{\displaystyle {\frac {N_{q^{2}}}{q^{2}}}{\frac {q^{2}}{(q+1)^{2}}}\leq \phi _{n}\leq {\frac {N_{q^{2}}}{q^{2}}}+{\frac {(q+1)^{2}-q^{2}}{q^{2}}}}
passando al limite (
n
→
∞
⇒
q
→
∞
{\displaystyle n\to \infty \Rightarrow q\to \infty }
) e applicando il risultato ottenuto per
ϕ
n
2
{\displaystyle \phi _{n^{2}}}
, si ottiene che, quasi certamente:
p
⋅
1
=
p
lim
q
→
∞
q
2
(
q
+
1
)
2
≤
lim
n
→
∞
ϕ
n
≤
p
+
lim
q
→
∞
q
2
+
2
q
+
1
−
q
2
q
2
=
p
+
0
{\displaystyle p\cdot 1=p\lim _{q\to \infty }{\frac {q^{2}}{(q+1)^{2}}}\leq \lim _{n\to \infty }\phi _{n}\leq p+\lim _{q\to \infty }{\frac {q^{2}+2q+1-q^{2}}{q^{2}}}=p+0}
il che conclude la dimostrazione.