Indice di correlazione di Pearson

Da Wikipedia, l'enciclopedia libera.

In statistica, l'indice di correlazione di Pearson, anche detto coefficiente di correlazione di Pearson (o di Bravais-Pearson) tra due variabili statistiche è un indice che esprime una eventuale relazione di linearità tra esse.

Definizione[modifica | modifica sorgente]

Date due variabili statistiche X e Y, l'indice di correlazione di Pearson è definito come la loro covarianza divisa per il prodotto delle deviazioni standard delle due variabili:

\ \rho_{XY} = \frac{\sigma_{XY}}{\sigma_X \sigma_Y}.

dove \ \sigma_{XY}, è la covarianza tra X e Y e \ \sigma_X , \sigma_Y, sono le due deviazioni standard

Il coefficiente assume sempre valori compresi tra -1 e 1:

\ -1 \leq \rho_{XY} \leq 1 .

Correlazione e indipendenza[modifica | modifica sorgente]

Nella pratica si distinguono vari "tipi" di correlazione.

  • Se \ \rho_{XY} > 0, le variabili X e Y si dicono direttamente correlate, oppure correlate positivamente;
  • se \ \rho_{XY} = 0, le variabili X e Y si dicono incorrelate;
  • se \ \rho_{XY} < 0, le variabili X e Y si dicono inversamente correlate, oppure correlate negativamente.

Inoltre per la correlazione diretta (e analogamente per quella inversa) si distingue:

  • se \ 0 < \rho_{XY} < 0,3 si ha correlazione debole;
  • se \ 0,3 < \rho_{XY} < 0,7 si ha correlazione moderata;
  • se \ \rho_{XY} > 0,7 si ha correlazione forte.

L'indice di correlazione vale 0 se le due variabili sono indipendenti. Non vale la conclusione opposta: in altri termini, l'incorrelazione è condizione necessaria ma non sufficiente per l'indipendenza. Per esempio data la distribuzione

X: -3 -2 -1 0 1 2 3
Y: 9 4 1 0 1 4 9

dove Y=X^2 , si ha che  \rho_{XY} =0 .

L'ipotesi di assenza di autocorrelazione è più restrittiva ed implica quella di indipendenza fra due variabili.

L'indice di correlazione vale + 1 in presenza di correlazione lineare positiva (cioè Y = a + b X, con b>0), mentre vale -1 in presenza di correlazione lineare negativa (cioè Y = a + b X, con b<0).

Valori prossimi a +1 (o -1) possono essere misurati anche in presenza di relazioni non lineari. Per esempio, la seguente relazione quadratica:  Y = X^2

X: 1 2 3 4
Y: 1 4 9 16

produce un coefficiente  \rho_{XY} = 0,9844 .

Generalizzazione a più di due variabili[modifica | modifica sorgente]

Gli indici di correlazione di n variabili possono essere presentati in una matrice di correlazione, che è una matrice quadrata di dimensione n\times n avente sia sulle righe che sulle colonne le variabili oggetto di studio. La matrice è simmetrica, cioè (\rho_{ji} = \rho_{{ij}}), e i coefficienti sulla diagonale valgono 1, in quanto

\ \rho_{ii} = \frac{\sigma_{ii}}{\sigma_i^2}

Note[modifica | modifica sorgente]

L'indice di correlazione di Pearson:

  • Funziona solo se i dati sono linearmente dipendenti. Non cattura bene dipendenze non lineari tra dati.
  • È molto sensibile alla presenza di outliers statistici, anche in piccole quantità.

Voci correlate[modifica | modifica sorgente]