Indice di correlazione di Pearson

Da Wikipedia, l'enciclopedia libera.

In teoria degli errori, l'indice di correlazione di Pearson, anche detto coefficiente di correlazione di Pearson (o di Bravais-Pearson) tra due variabili aleatorie è un coefficiente che esprime la linearità tra la loro covarianza e il prodotto delle rispettive deviazioni standard.

Gli indici di correlazione di Pearson si usano nell'analisi di correlazione di Pearson (Pearson correlation analysis in inglese).

Date due variabili statistiche X e Y, indice di correlazione di Pearson è definito come la loro covarianza divisa per il prodotto delle deviazioni standard delle due variabili:

\ \rho_{xy} = \frac{\sigma_{xy}}{\sigma_x \sigma_y}.

dove

\ \sigma_{xy} , è la covarianza tra X e Y
\ \sigma_x , \sigma_y , sono le due deviazioni standard

Il coefficiente assume sempre valori compresi tra -1 e 1:

\ -1 \leq \rho_{xy} \leq 1 .

Se:

  • \ \rho_{xy} > 0, le variabili x e y si dicono direttamente correlate, oppure correlate positivamente;
    \ \rho_{xy} = 0, le variabili x e y si dicono incorrelate;
    \ \rho_{xy} < 0, le variabili x e y si dicono inversamente correlate, oppure correlate negativamente.

Per la correlazione diretta si distingue inoltre:

  • \ 0 < \rho_{xy} < 0,3 : correlazione debole;
    \ 0,3 < \rho_{xy} < 0,7 : correlazione moderata;
    \ \rho_{xy} > 0,7 : correlazione forte.

L'indice di correlazione vale 0 se le due variabili sono indipendenti. Non vale la conclusione opposta: in altri termini, la scorrelazione è condizione necessaria ma non sufficiente per l'indipendenza. L'ipotesi di assenza di autocorrelazione è più restrittiva ed implica quella di indipendenza fra due variabili.

L'indice di correlazione vale + 1 in presenza di correlazione lineare positiva (y = a + b x, dove b>0), mentre vale -1 in presenza di correlazione lineare negativa (p.es.: y = a + b x, con b<0).

Valori prossimi a +1 (o -1) possono essere misurati anche in presenza di relazioni non lineari. Per esempio, la seguente relazione quadratica:  y = x^2

X: 1 2 3 4
Y: 1 4 9 16

produce un coefficiente pari a 0,9844.

Gli indici di Pearson di n variabili possono essere presentati in una matrice di correlazione, che è una matrice quadrata di dimensione [n,n] avente nelle righe e colonne le variabili oggetto di studio. La matrice è simmetrica (\rho_{ji} = \rho_{{ij}}) e i coefficienti sulla diagonale valgono 1, in quanto

\ \rho_{ii} = \frac{\sigma_{ii}}{\sigma_i^2}

Voci correlate [modifica]