Varianza

Da Wikipedia, l'enciclopedia libera.
Vai a: navigazione, cerca
bussola Disambiguazione – Se stai cercando il grado di libertà di un sistema, vedi Grado di libertà (chimica).

In teoria della probabilità e in statistica la varianza di una variabile aleatoria X (e della distribuzione di probabilità che questa segue) è un numero, indicato con Var(X), che fornisce una misura di quanto siano vari i valori assunti dalla variabile, ovvero di quanto si discostino dalla media E[X].

Indice

[modifica] Definizione

La varianza di X è definita come il valore atteso del quadrato della variabile aleatoria centrata Y=X-E[X]

\text{Var}(X)=E[Y^2]=E\Big[\big(X-E[X]\big)^2\Big]

In statistica viene spesso preferita la radice quadrata della varianza di X, lo scarto tipo (o scarto quadratico medio) indicato con la lettera σ. Per questo motivo talvolta la varianza viene indicata con σ2.

Un esempio di "misura" dello scostamento di una variabile aleatoria dalla media è dato dal teorema di Čebyšëv che controlla questo scostamento in termini dello scarto tipo:

P\Big(\big|X-E[X]\big|\geqslant\lambda\sqrt{\text{Var}(X)}\Big)\leqslant\frac{1}{\lambda^2}

[modifica] Proprietà

La varianza di una variabile aleatoria non è mai negativa, ed è zero solamente quando la variabile assume quasi certamente un solo valore, P(X=x)=1.

Una formula alternativa per la varianza è

\text{Var}(X)=E[X^2]-E[X]^2\

Questa formula è a volte più pratica per calcolare la varianza.

[modifica] Linearità

La varianza è invariante per traslazione, che lascia fisse le distanze dalla media, e cambia quadraticamente per riscalamento:

\text{Var}(aX+b)=a^2\text{Var}(X)\

La varianza della somma di due variabili indipendenti è pari alla somma delle loro varianze

\text{Var}(X+Y)=\text{Var}(X)+\text{Var}(Y)\

Se X e Y non sono indipendenti, la formula viene corretta dalla loro covarianza,

\text{Var}(X+Y)=\text{Var}(X)+\text{Var}(Y)+2\text{Cov}(X,Y)\ ,

dove

\text{Cov}(X,Y)=E[XY]-E[X]E[Y]\

In particolare, la media \textstyle \bar{X}=\frac{X_1+\ldots+X_n}{n} di n variabili aleatorie indipendenti aventi la medesima legge, ha varianza

\text{Var}(\bar{X})=\frac{1}{n^2}\text{Var}(X_1+\ldots+X_n)=\frac{1}{n}\text{Var}(X_1)

[modifica] Variabili discrete e continue

La varianza di una variabile aleatoria discreta X a valori in un insieme S si calcola attraverso la sua funzione di probabilità:

E[X]=\sum_{s\in S}sP(X=s)
\text{Var}(X)=\sum_{s\in S}(s-E[X])^2P(X=s)

La varianza di una variabile aleatoria continua X a valori in un insieme S si calcola attraverso la sua densità di probabilità:

E[X]=\int_S sf(s) ds\
\text{Var}(X)=\int_S (s-E[X])^2f(s) ds\

[modifica] Statistica

In statistica viene utilizzata più spesso della varianza la sua radice quadrata, vale a dire lo scarto quadratico medio \sigma=\sqrt{\text{Var}(X)} anche detto deviazione standard. Con riferimento a questa notazione la varianza si trova quindi anche indicata come σ2.

[modifica] Stimatori

In statistica si utilizzano solitamente due stimatori per la varianza su un campione di cardinalità n:

S^2_n=\frac{\sum_{i=1}^n(X_i-\bar{X})^2}{n}\quad e \quad S^2_{n-1}=\frac{\sum_{i=1}^n(X_i-\bar{X})^2}{n-1},

(anche chiamati varianza campionaria) dove \textstyle \bar{X}=\frac{X_1+\ldots+X_n}{n} è lo stimatore per la media.

Lo stimatore Sn-1 è privo di bias, ovvero il suo valore atteso è proprio la varianza E[S^2_{n-1}]=\text{Var}(X).
Al contrario, lo stimatore Sn ha un valore atteso diverso dalla varianza, E[S^2_n]=\textstyle \frac{n-1}{n}\text{Var}(X).

Una giustificazione del termine n-1 è data dalla necessità di stimare anche la media. Se la media μ è nota, lo stimatore Sn diventa corretto. Questa è detta "Correzione di Bessel".



\begin{align}
\operatorname{E}[S_{n-1}^2] & = \operatorname{E}\left[\frac{1}{n-1} \sum_{i=1}^n X_i^2 ~ - ~ \frac{n}{n-1} \overline{X}^2 \right] \\[8pt]
& = \frac{1}{n-1}\left( \sum \operatorname{E}[X_i^2] ~ - ~ n \operatorname{E}[\overline{X}^2] \right) \\[8pt]
& = \frac{1}{n-1}\left(    n \operatorname{E}[X^2] ~ - ~ n \operatorname{E}[\overline{X}^2] \right) \\[8pt]
& = \frac{n}{n-1}\left( \operatorname{Var}(X) + \operatorname{E}[X]^2 ~ - ~ \operatorname{Var}(\overline{X}) - \operatorname{E}[\overline{X}]^2 \right) \\[8pt]
& = \frac{n}{n-1}\left( \operatorname{Var}(X) + \mu^2 ~ - ~ \frac{1}{n}\operatorname{Var}(X) - \mu^2 \right) \\[8pt]
& = \frac{n}{n-1}\left( \frac{n-1}{n} ~ \operatorname{Var}(X) \right) \\[8pt]
& = \operatorname{Var}(X) \\[8pt]
& = \sigma^2.
\end{align}

In contrasto con,

\operatorname{E}[S_n^2] = \frac{n-1}{n} \sigma^2.


Se le Xi seguono la legge normale N(μ,σ), lo stimatore S2n-1 segue una legge del χ2

UNIQ1623f0936689be3-math-0000004E-QINU

[modifica] Varianza osservata

Come per gli stimatori, esistono due diverse varianze osservate sui dati di un campione x_1,\ldots,x_n di media osservata \textstyle \bar{x}=\frac{\sum_i x_i}{n},

s^2_n=\frac{\sum_i(x_i-\bar{x})^2}{n}\quad e \quad s^2_{n-1}=\frac{\sum_i(x_i-\bar{x})^2}{n-1}.

In particolare, sn è la media quadratica delle distanze dei valori dalla loro media.

[modifica] Esempi

Una variabile aleatoria X di legge di Bernoulli B(p), ovvero che ha probabilità p di fornire "1" e probabilità q=1-p di fornire "0", ha valore medio

E[X] = 0P(X = 0) + 1P(X = 1) = P(X = 1) = p;

la sua varianza può essere calcolata come

\text{Var}(X)=E[(X-E[X])^2]=E[(X-p)^2]=p^2P(X=0)+q^2P(X=1)=pq(p+q)=pq\

oppure come

\text{Var}(X)=E[X^2]-E[X]^2=P(X=1)-p^2=p(1-p)=pq\ .


Il campione {-4, -1, 1, 2, 7} ha media

\mu=\frac{-4-1+1+2+7}{5}=1

e le varianze osservate sono

\textstyle s^2_n=\frac{(-4-1)^2+(-1-1)^2+(1-1)^2+(2-1)^2+(7-1)^2}{5}=\frac{25+4+0+1+36}{5}=\frac{66}{5}=13,2

e

\textstyle s^2_{n-1}=\frac{66}{5-1}=16,5.

[modifica] Voci correlate

Strumenti personali
Namespace
Varianti
Azioni
Navigazione
Comunità
Stampa/esporta
Strumenti
Altre lingue