Covarianza (probabilità)

Da Wikipedia, l'enciclopedia libera.

In matematica, in particolare in teoria della probabilità, la covarianza di due variabili aleatorie è un numero Cov(X,Y) che fornisce una misura di quanto le due varino assieme, ovvero della loro dipendenza.

Definizione[modifica | modifica wikitesto]

La covarianza di due variabili aleatorie X e Y è il valore atteso dei prodotti delle loro distanze dalla media:

\mathrm{Cov}(X,Y)=\mathbb{E}\Big[\big(X-\mathbb{E}[X]\big)(Y-\mathbb{E}[Y]\big)\Big].

La covarianza di X e Y può anche essere espressa come la differenza tra il valore atteso del loro prodotto e il prodotto dei loro valori attesi:

\mathrm{Cov}(X,Y)=\mathbb{E}[XY]-\mathbb{E}[X]\mathbb{E}[Y].

Infatti per la linearità del valore atteso risulta

\mathbb{E}\Big[XY-X\mathbb{E}[Y]-\mathbb{E}[X]Y+\mathbb{E}[X]\mathbb{E}[Y]\Big]=\mathbb{E}[XY]-\mathbb{E}[X]\mathbb{E}[Y]-\mathbb{E}[X]\mathbb{E}[Y]+\mathbb{E}[X]\mathbb{E}[Y]=\mathbb{E}[XY]-\mathbb{E}[X]\mathbb{E}[Y].

Proprietà[modifica | modifica wikitesto]

La covarianza rispetta le seguenti proprietà, per variabili aleatorie X, Y e Z, e costanti a e b:

  • \text{Cov}(X,Y)=\text{Cov}(Y,X)\
  • \text{Cov}(aX+b,Y)=a\text{Cov}(X,Y)\
  • \text{Cov}(X+Y,Z)=\text{Cov}(X,Z)+\text{Cov}(Y,Z)\

Due variabili aleatorie indipendenti hanno covarianza nulla, poiché dalla loro indipendenza segue

\mathbb{E}[XY]=\mathbb{E}[X]\mathbb{E}[Y]\

Due variabili aleatorie che hanno covarianza nulla sono non correlate.

Due variabili aleatorie dipendenti possono essere non correlate. Ad esempio, se X è una variabile aleatoria di legge uniforme sull'intervallo [-1,1] e Y=X2, allora

\textstyle \text{Cov}(X,Y)=\text{Cov}(X,X^2)=\mathbb{E}[X^3]-\mathbb{E}[X]\mathbb{E}[X^2]=0-0 \mathbb{E}[X^2]=0.

Varianza[modifica | modifica wikitesto]

La covarianza può essere considerata una generalizzazione della varianza

\text{Var}(X)=\text{Cov}(X,X)\

e compare come termine di correzione nella relazione

\text{Var}(X+Y)=\text{Var}(X)+\text{Var}(Y)+2\text{Cov}(X,Y)\

Più in generale, per variabili aleatorie X_1,...,X_n e Y_1,...,Y_m vale

\textstyle \text{Var}(\sum_iX_i)=\text{Cov}(\sum_iX_i,\sum_jX_j)=\sum_{i,j}\text{Cov}(X_i,X_j)=\sum_i\text{Var}(X_i)+2\sum_{i>j}\text{Cov}(X_i,X_j)

come caso particolare di

\textstyle \text{Cov}\left(\sum_i X_i, \sum_j Y_j\right)=\sum_{i,j}\text{Cov}(X_i,Y_j).

Statistica[modifica | modifica wikitesto]

In statistica la covarianza di due variabili statistiche  X e Y, indicata come \textstyle \sigma_{X,Y}=\text{Cov}(X,Y)\ , è un indice di variabilità congiunta.

Su una popolazione di n osservazioni congiunte (x_i,y_i), di rispettive medie \bar{x} e \bar{y}, la covarianza osservata è

 \sigma_{X,Y}=\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})=\frac{1}{n}\sum_{i=1}^n x_iy_i-\left(\frac{1}{n}\sum_{i=1}^n x_i\right)\left(\frac{1}{n}\sum_{i=1}^n y_i\right).

Uno stimatore della covarianza su un campione di N osservazioni congiunte (x_i,y_i) è

S_{X,Y}=\frac{\sum_{i=1}^N x_i y_i}{N}-\frac{\sum_{i=1}^N x_i}{N}\frac{\sum_{i=1}^N y_i}{N}

La varianza e la covarianza intervengono per definire l'indice di correlazione di Pearson

\rho_{X,Y}=\frac{\sum_i(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_j(x_j-\bar{x})^2 \sum_k(y_k-\bar{y})^2}} =\frac{\text{Cov}(X,Y)}{\sqrt{\text{Var}(X)\text{Var}(Y)}}

Voci correlate[modifica | modifica wikitesto]

Collegamenti esterni[modifica | modifica wikitesto]