Matrice delle covarianze
In statistica multivariata, la matrice delle covarianze
rappresenta la variazione di coppie di variabili aleatorie, in una analisi statistica di un fenomeno, cioè rappresenta il modo in cui ogni variabile varia rispetto alle altre.
Sia
l'insieme dei campioni osservati, ciascuno dei quali corrisponde a un vettore di valori. Ciascuno di questi vettori ha lunghezza
. La matrice delle covarianze avrà perciò dimensioni
x
. I suoi valori sono definiti come:
.
Dove ogni
rappresenta una caratteristica (il vettore
rappresenta una rilevazione), il vettore
la media dei valori di ciascuna caratteristica (perciò
rappresenta la
-esima caratteristica), e
è il numero di rilevazioni.
Indice |
Significato dei valori[modifica]
I valori sulla diagonale (
con
), rappresentano la varianza delle caratteristiche.
Ogni elemento
( con
), rappresenta la correlazione tra
e
.
Nel caso in cui questo valore sia positivo, significa che al crescere di una caratteristica, statisticamente cresce anche l'altra. Nel caso in cui questo valore sia negativo, accade il contrario. Se le caratteristiche sono statisticamente indipendenti, questo valore è 0 (l'implicazione inversa non è necessariamente verificata).
Applicazioni[modifica]
Oltre al significato statistico che possiamo dedurre dai termini, la matrice delle covarianze è un parametro della funzione gaussiana, nella statistica multivariata.
Può inoltre essere d'ausilio alla riduzione delle features, tramite l'analisi delle componenti principali (PCA).
Bibliografia[modifica]
- Richard O. Duda, Peter E. Hart, David G. Stork, Wiley Interscience - Pattern Classification (2nd ed.)
Voci correlate[modifica]
- Funzione di ripartizione della variabile casuale normale
- Variabile casuale normale
- Funzione gaussiana
- Teorema del limite centrale
- Analisi delle componenti principali
- Varianza
- Covarianza
- Media (statistica)
|
|