Da Wikipedia, l'enciclopedia libera.
In statistica e in teoria della probabilità , la covarianza di due variabili statistiche o variabili aleatorie è un valore numerico che fornisce una misura di quanto le due varino assieme.
La covarianza di due variabili aleatorie
X
{\displaystyle X}
e
Y
{\displaystyle Y}
è il valore atteso dei prodotti delle loro distanze dalla media:
C
o
v
(
X
,
Y
)
=
E
[
(
X
−
E
[
X
]
)
(
Y
−
E
[
Y
]
)
]
.
{\displaystyle \mathrm {Cov} (X,Y)=\mathbb {E} {\Big [}{\big (}X-\mathbb {E} [X]{\big )}(Y-\mathbb {E} [Y]{\big )}{\Big ]}.}
La covarianza di
X
{\displaystyle X}
e
Y
{\displaystyle Y}
può anche essere espressa come la differenza tra il valore atteso del loro prodotto e il prodotto dei loro valori attesi:
C
o
v
(
X
,
Y
)
=
E
[
X
Y
]
−
E
[
X
]
E
[
Y
]
.
{\displaystyle \mathrm {Cov} (X,Y)=\mathbb {E} [XY]-\mathbb {E} [X]\mathbb {E} [Y].}
Infatti per la linearità del valore atteso risulta
E
[
X
Y
−
X
E
[
Y
]
−
E
[
X
]
Y
+
E
[
X
]
E
[
Y
]
]
=
E
[
X
Y
]
−
E
[
X
]
E
[
Y
]
−
E
[
X
]
E
[
Y
]
+
E
[
X
]
E
[
Y
]
=
E
[
X
Y
]
−
E
[
X
]
E
[
Y
]
.
{\displaystyle \mathbb {E} {\Big [}XY-X\mathbb {E} [Y]-\mathbb {E} [X]Y+\mathbb {E} [X]\mathbb {E} [Y]{\Big ]}=\mathbb {E} [XY]-\mathbb {E} [X]\mathbb {E} [Y]-\mathbb {E} [X]\mathbb {E} [Y]+\mathbb {E} [X]\mathbb {E} [Y]=\mathbb {E} [XY]-\mathbb {E} [X]\mathbb {E} [Y].}
La covarianza rispetta le seguenti proprietà, per variabili aleatorie
X
{\displaystyle X}
,
Y
{\displaystyle Y}
e
Z
{\displaystyle Z}
, e costanti
a
{\displaystyle a}
e
b
{\displaystyle b}
:
Cov
(
X
,
Y
)
=
Cov
(
Y
,
X
)
{\displaystyle {\text{Cov}}(X,Y)={\text{Cov}}(Y,X)\ }
Cov
(
a
X
+
b
,
Y
)
=
a
Cov
(
X
,
Y
)
{\displaystyle {\text{Cov}}(aX+b,Y)=a{\text{Cov}}(X,Y)\ }
Cov
(
X
+
Y
,
Z
)
=
Cov
(
X
,
Z
)
+
Cov
(
Y
,
Z
)
{\displaystyle {\text{Cov}}(X+Y,Z)={\text{Cov}}(X,Z)+{\text{Cov}}(Y,Z)\ }
Due variabili aleatorie indipendenti hanno covarianza nulla, poiché dalla loro indipendenza segue
E
[
X
Y
]
=
E
[
X
]
E
[
Y
]
.
{\displaystyle \mathbb {E} [XY]=\mathbb {E} [X]\mathbb {E} [Y].}
Due variabili aleatorie che hanno covarianza nulla sono incorrelate .
Due variabili aleatorie dipendenti possono essere incorrelate. Ad esempio, se
X
{\displaystyle X}
è una variabile aleatoria di legge uniforme sull'intervallo
[
−
1
,
1
]
{\displaystyle [-1,1]}
e
Y
=
X
2
{\displaystyle Y=X^{2}}
, allora
Cov
(
X
,
Y
)
=
Cov
(
X
,
X
2
)
=
E
[
X
3
]
−
E
[
X
]
E
[
X
2
]
=
0
−
0
E
[
X
2
]
=
0.
{\displaystyle \textstyle {\text{Cov}}(X,Y)={\text{Cov}}(X,X^{2})=\mathbb {E} [X^{3}]-\mathbb {E} [X]\mathbb {E} [X^{2}]=0-0\mathbb {E} [X^{2}]=0.}
La covarianza può essere considerata una generalizzazione della varianza
Var
(
X
)
=
Cov
(
X
,
X
)
{\displaystyle {\text{Var}}(X)={\text{Cov}}(X,X)\ }
e compare come termine di correzione nella relazione
Var
(
X
+
Y
)
=
Var
(
X
)
+
Var
(
Y
)
+
2
Cov
(
X
,
Y
)
.
{\displaystyle {\text{Var}}(X+Y)={\text{Var}}(X)+{\text{Var}}(Y)+2{\text{Cov}}(X,Y).}
Più in generale, per variabili aleatorie
X
1
,
…
,
X
n
{\displaystyle X_{1},\ldots ,X_{n}}
e
Y
1
,
…
,
Y
m
{\displaystyle Y_{1},\ldots ,Y_{m}}
vale
Var
(
∑
i
X
i
)
=
Cov
(
∑
i
X
i
,
∑
j
X
j
)
=
∑
i
,
j
Cov
(
X
i
,
X
j
)
=
∑
i
Var
(
X
i
)
+
2
∑
i
>
j
Cov
(
X
i
,
X
j
)
,
{\displaystyle \textstyle {\text{Var}}(\sum _{i}X_{i})={\text{Cov}}(\sum _{i}X_{i},\sum _{j}X_{j})=\sum _{i,j}{\text{Cov}}(X_{i},X_{j})=\sum _{i}{\text{Var}}(X_{i})+2\sum _{i>j}{\text{Cov}}(X_{i},X_{j}),}
come caso particolare di
Cov
(
∑
i
X
i
,
∑
j
Y
j
)
=
∑
i
,
j
Cov
(
X
i
,
Y
j
)
.
{\displaystyle \textstyle {\text{Cov}}\left(\sum _{i}X_{i},\sum _{j}Y_{j}\right)=\sum _{i,j}{\text{Cov}}(X_{i},Y_{j}).}
In statistica la covarianza di due variabili statistiche
X
{\displaystyle X}
e
Y
{\displaystyle Y}
, indicata come
σ
X
,
Y
=
Cov
(
X
,
Y
)
{\displaystyle \textstyle \sigma _{X,Y}={\text{Cov}}(X,Y)}
, è un indice di variabilità congiunta.
Su una popolazione di
N
{\displaystyle N}
osservazioni congiunte
(
x
i
,
y
i
)
{\displaystyle (x_{i},y_{i})}
, di rispettive medie
x
¯
{\displaystyle {\bar {x}}}
e
y
¯
{\displaystyle {\bar {y}}}
, la covarianza osservata è
σ
X
,
Y
=
1
N
∑
i
=
1
N
(
x
i
−
x
¯
)
(
y
i
−
y
¯
)
=
1
N
∑
i
=
1
N
x
i
y
i
−
(
1
N
∑
i
=
1
N
x
i
)
(
1
N
∑
i
=
1
N
y
i
)
.
{\displaystyle \sigma _{X,Y}={\frac {1}{N}}\sum _{i=1}^{N}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})={\frac {1}{N}}\sum _{i=1}^{N}x_{i}y_{i}-\left({\frac {1}{N}}\sum _{i=1}^{N}x_{i}\right)\left({\frac {1}{N}}\sum _{i=1}^{N}y_{i}\right).}
Uno stimatore della covarianza di
n
{\displaystyle n}
osservazioni congiunte
(
x
i
,
y
i
)
{\displaystyle (x_{i},y_{i})}
può essere ottenuto correggendo la formula della covarianza, dividendo per il numero di gradi di libertà. In questo caso il numero di gradi di libertà è dato dal numero delle osservazioni,
n
{\displaystyle n}
, a cui va sottratto il numero di stimatori utilizzati nel computo della covarianza. Nella covarianza entrano le medie campionarie delle
x
i
,
y
i
{\displaystyle x_{i},y_{i}}
, e si può dimostrare che il computo di queste medie corrisponde alla sottrazione di 1 solo grado di libertà (non due, come ci si potrebbe aspettare). Perciò lo stimatore della covarianza è dato da
s
X
,
Y
=
∑
i
=
1
n
x
i
y
i
n
−
1
−
∑
i
=
1
n
x
i
n
−
1
∑
i
=
1
n
y
i
n
.
{\displaystyle s_{X,Y}={\frac {\sum _{i=1}^{n}x_{i}y_{i}}{n-1}}-{\frac {\sum _{i=1}^{n}x_{i}}{n-1}}{\frac {\sum _{i=1}^{n}y_{i}}{n}}.}
Lo stimatore della covarianza è anche detto covarianza campionaria.
La varianza e la covarianza intervengono per definire l'indice di correlazione di Bravais-Pearson
ρ
X
,
Y
=
∑
i
(
x
i
−
x
¯
)
(
y
i
−
y
¯
)
∑
j
(
x
j
−
x
¯
)
2
∑
k
(
y
k
−
y
¯
)
2
=
Cov
(
X
,
Y
)
Var
(
X
)
Var
(
Y
)
{\displaystyle \rho _{X,Y}={\frac {\sum _{i}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sqrt {\sum _{j}(x_{j}-{\bar {x}})^{2}\sum _{k}(y_{k}-{\bar {y}})^{2}}}}={\frac {{\text{Cov}}(X,Y)}{\sqrt {{\text{Var}}(X){\text{Var}}(Y)}}}}