Matrice delle covarianze

Da Wikipedia, l'enciclopedia libera.

In statistica multivariata, la matrice delle covarianze \sum rappresenta la variazione di coppie di variabili aleatorie, in una analisi statistica di un fenomeno, cioè rappresenta il modo in cui ogni variabile varia rispetto alle altre.

Sia X l'insieme dei campioni osservati, ciascuno dei quali corrisponde a un vettore di valori. Ciascuno di questi vettori ha lunghezza D. La matrice delle covarianze avrà perciò dimensioni D x D. I suoi valori sono definiti come:

\sigma_{i j}=\frac{1}{n}\sum_{h=1}^{n}(x_{hi}-\mu_{j})^2.

Dove ogni  x_{hi} rappresenta una caratteristica (il vettore x rappresenta una rilevazione), il vettore \mu la media dei valori di ciascuna caratteristica (perciò \mu_{j} rappresenta la j-esima caratteristica), e n è il numero di rilevazioni.


Indice

Significato dei valori[modifica]

I valori sulla diagonale (\sigma_{i j} con i = j), rappresentano la varianza delle caratteristiche.

Ogni elemento \sigma_{ij} ( con i \neq j), rappresenta la correlazione tra i e j.

Nel caso in cui questo valore sia positivo, significa che al crescere di una caratteristica, statisticamente cresce anche l'altra. Nel caso in cui questo valore sia negativo, accade il contrario. Se le caratteristiche sono statisticamente indipendenti, questo valore è 0 (l'implicazione inversa non è necessariamente verificata).

Applicazioni[modifica]

Oltre al significato statistico che possiamo dedurre dai termini, la matrice delle covarianze è un parametro della funzione gaussiana, nella statistica multivariata.

Può inoltre essere d'ausilio alla riduzione delle features, tramite l'analisi delle componenti principali (PCA).

Bibliografia[modifica]

  • Richard O. Duda, Peter E. Hart, David G. Stork, Wiley Interscience - Pattern Classification (2nd ed.)

Voci correlate[modifica]

matematica Portale Matematica: accedi alle voci di Wikipedia che trattano di matematica