Varianza

Da Wikipedia, l'enciclopedia libera.
bussola Disambiguazione – Se stai cercando il grado di libertà in termodinamica, vedi Grado di libertà (chimica).

In teoria della probabilità la varianza di una variabile aleatoria X è una funzione, indicata con \sigma^2_X o con \mathrm{Var}(X) (o semplicemente con \sigma^2 se la variabile aleatoria è sottointesa), che fornisce una misura della variabilità dei valori assunti dalla variabile aleatoria, nello specifico, di quanto essi si discostino quadraticamente dal valore atteso \mathbb E[X].

Definizione[modifica | modifica wikitesto]

La varianza della variabile aleatoria X è definita come il valore atteso del quadrato della variabile aleatoria centrata X-\mathbb{E}[X]

\sigma^2_X=\mathbb{E}\Big[\big(X-\mathbb{E}[X]\big)^2\Big].

Un esempio di "misura" dello scostamento di una variabile aleatoria dalla media è dato dalla disuguaglianza di Čebyšëv che controlla questo scostamento in termini dello scarto tipo:

P\Big(\big|X-\mathbb{E}[X]\big|\geqslant\lambda \sigma_X\Big)\leqslant\frac{1}{\lambda^2},

dove \sigma_X=\sqrt{\sigma^2_X}

Proprietà[modifica | modifica wikitesto]

La varianza di una variabile aleatoria non è mai negativa, ed è zero solamente quando la variabile assume quasi certamente un solo valore x_0, cioè se P(X=x_0)=1.

Una formula alternativa per la varianza è

\sigma^2_X=\mathbb{E}[X^2]-\mathbb{E}[X]^2\

Questa formula è più pratica per calcolare la varianza.

Dimostrazione

La varianza di X è per definizione pari al valore atteso di

(X-\mathbb{E}[X])^2=X^2-2X\mathbb{E}[X]+\mathbb{E}[X]^2\ :

per la linearità del valore atteso si ottiene

\sigma^2_X=\mathbb{E}[X^2-2X\mathbb{E}[X]+\mathbb{E}[X]^2]=\mathbb{E}[X^2]-2\mathbb{E}[X]\mathbb{E}[X]+\mathbb{E}[X]^2=\mathbb{E}[X^2]-\mathbb{E}[X]^2\ .

Linearità[modifica | modifica wikitesto]

La varianza è invariante per traslazione, che lascia fisse le distanze dalla media, e cambia quadraticamente per riscalamento:

\sigma^2_{aX+b}=a^2\sigma^2_X\
Dimostrazione

Sfruttando la linearità del valore atteso si trova

(aX+b)-\mathbb{E}[aX+b]=aX+b-a\mathbb{E}[X]-b=a(X-\mathbb{E}[X]),

quindi

\sigma^2_{aX+b}=\mathbb{E}[a^2(X-\mathbb{E}[X])^2]=a^2\sigma^2_X\ .

La varianza della somma di due variabili indipendenti o anche solo incorrelate è pari alla somma delle loro varianze

\sigma^2_{X+Y}=\sigma^2_X+\sigma^2_Y\
Dimostrazione

Se \mathbb{E}[X]=\mathbb{E}[Y]=0, allora \mathbb{E}[XY]=0 e

\sigma^2_{X+Y}=\mathbb{E}[(X+Y)^2]=\mathbb{E}[X^2]+2\mathbb{E}[XY]+\mathbb{E}[Y^2]=\sigma^2_X+\sigma^2_Y+2\mathbb{E}[XY]\ ,

e siccome le variabili sono indipendenti risulta \mathbb{E}[XY]=\mathbb{E}[X]\mathbb{E}[Y]=0.

Nel caso generale basta traslare le variabili di modo che abbiano valore atteso nullo (come X'=X-\mathbb{E}[X]); la loro varianza non cambia.

Usando le due precedenti affermazioni, possiamo dire che la varianza della differenza di due variabili indipendenti è pari alla somma delle loro varianze

\sigma^2_{X-Y}=\sigma^2_{X+(-Y)}=\sigma^2_X + \sigma^2_{-Y} = \sigma^2_X +  \sigma^2_Y \


Se X e Y non sono indipendenti, la formula viene corretta dalla loro covarianza,

\sigma^2_{X+Y}=\sigma^2_X+\sigma^2_Y+2\sigma_{X,Y}\ ,

dove

\sigma_{X,Y}=\mathbb{E}[XY]-\mathbb{E}[X]\mathbb{E}[Y]\

In particolare, la media aritmetica \textstyle \bar{X}=\frac{X_1+\ldots+X_n}{n} di n variabili aleatorie indipendenti aventi la medesima legge, ha varianza aritmetica

\sigma^2_{\bar{X}}=\frac{1}{n^2}\sigma^2_{X_1+\ldots+X_n}=\frac{1}{n}\sigma^2_{X_1}

Variabili discrete e continue[modifica | modifica wikitesto]

La varianza di una variabile aleatoria discreta X a valori in un insieme A si calcola attraverso la sua funzione di probabilità:

\mathbb{E}[X]=\sum_{x\in A}xP(X=x)
\sigma^2_X=\sum_{x\in A}(x-\mathbb{E}[X])^2P(X=x)

La varianza di una variabile aleatoria continua X a valori in un insieme A si calcola attraverso la sua densità di probabilità:

\mathbb{E}[X]=\int_A x f(x) dx\
\sigma^2_X=\int_A (x-\mathbb{E}[X])^2f(x) dx\

Esempio[modifica | modifica wikitesto]

Una variabile aleatoria di Bernoulli X, cioè che ha probabilità p di fornire "1" e probabilità q=1-p di fornire "0", ha valore atteso

\mathbb{E}[X]=0\cdot P(X=0)+1\cdot P(X=1)=P(X=1)=p;

e la sua varianza può essere calcolata come

\sigma^2_X=\mathbb{E}[(X-\mathbb{E}[X])^2]=\mathbb{E}[(X-p)^2]=p^2P(X=0)+q^2P(X=1)=pq(p+q)=pq\

oppure come

\sigma^2_X=\mathbb{E}[X^2]-\mathbb{E}[X]^2=P(X=1)-p^2=p(1-p)=pq\ .

Statistica[modifica | modifica wikitesto]

In statistica la varianza è un indice di variabilità. Data una distribuzione di un carattere quantitativo X su una popolazione di n elementi, la varianza è la media quadratica delle distanze dei valori dalla loro media

\sigma^2_X=\frac{\sum_i(x_i-\mu_X)^2}{n},

dove \textstyle \mu_X=\frac{\sum_i x_i}{n} è la media aritmetica di X.

In statistica viene molto spesso utilizzata anche la radice quadrata della varianza, vale a dire lo scarto quadratico medio (o deviazione standard o scarto tipo) \sigma_X=\sqrt{\sigma^2_X}. Con riferimento a questa notazione la varianza si trova quindi anche indicata come \sigma^2.

Stimatori[modifica | modifica wikitesto]

In statistica si utilizzano solitamente due stimatori per la varianza su un campione di cardinalità n:

S^2_n=\frac{\sum_{i=1}^n(x_i-\bar{x})^2}{n}\quad e \quad S^2_{n-1}=\frac{\sum_{i=1}^n(x_i-\bar{x})^2}{n-1},

dove \textstyle \bar{x}=\frac{x_1+\ldots+x_n}{n} è la media campionaria. Il primo è detto varianza campionaria, mentre il secondo è detto varianza campionaria corretta a causa della sua proprietà di correttezza. Infatti lo stimatore S^2_{n-1} è privo di distorsione, cioè il suo valore atteso è proprio la varianza \mathbb{E}[S^2_{n-1}]=\sigma^2(X).

Dimostrazione

\begin{align}
\operatorname{\mathbb{E}}[S_{n-1}^2] & = \operatorname{\mathbb{E}}\left[\frac{1}{n-1} \sum_{i=1}^n x_i^2 ~ - ~ \frac{n}{n-1} \overline{x}^2 \right] \\[8pt]
& = \frac{1}{n-1}\left( \sum \operatorname{\mathbb{E}}[x_i^2] ~ - ~ n \operatorname{\mathbb{E}}[\overline{x}^2] \right) \\[8pt]
& = \frac{1}{n-1}\left(    n \operatorname{\mathbb{E}}[x^2] ~ - ~ n \operatorname{\mathbb{E}}[\overline{x}^2] \right) \\[8pt]
& = \frac{n}{n-1}\left( \sigma^2(x) + \operatorname{\mathbb{E}}[x]^2 ~ - ~ \sigma^2(\overline{x}) - \operatorname{\mathbb{E}}[\overline{x}]^2 \right) \\[8pt]
& = \frac{n}{n-1}\left( \sigma^2(x) + \mu^2 ~ - ~ \frac{1}{n}\sigma^2(x) - \mu^2 \right) \\[8pt]
& = \frac{n}{n-1}\left( \frac{n-1}{n} ~ \sigma^2(x) \right) \\[8pt]
& = \sigma^2.
\end{align}

Al contrario, lo stimatore S^2_{n} ha un valore atteso diverso dalla varianza, \mathbb{E}[S^2_n]=\textstyle \frac{n-1}{n}\sigma^2(X).

Una spiegazione del termine n-1 è data dalla necessità di stimare anche la media. Se la media è nota, lo stimatore S^2_{n} diventa corretto. Questa è detta "Correzione di Bessel".

Se le X_i sono variabili aleatorie normali N(\mu,\sigma), lo stimatore S^2_{n-1} è una variabile aleatoria con distribuzione \chi^2.

Esempio[modifica | modifica wikitesto]

Il campione di n=5 elementi {-4, -1, 1, 2, 7} ha media campionaria

\bar{x}=\frac{-4-1+1+2+7}{5}=1

e gli stimatori della varianza sono rispettivamente

S^2_n=\frac{(-4-1)^2+(-1-1)^2+(1-1)^2+(2-1)^2+(7-1)^2}{5}=\frac{25+4+0+1+36}{5}=\frac{66}{5}=13,2

e

S^2_{n-1}=\frac{66}{5-1}=16,5.

Voci correlate[modifica | modifica wikitesto]

Collegamenti esterni[modifica | modifica wikitesto]