Indice di correlazione di Pearson

Da Wikipedia, l'enciclopedia libera.

In statistica, l'indice di correlazione di Pearson (anche detto coefficiente di correlazione lineare[1] o coefficiente di correlazione di Pearson o coefficiente di correlazione di Bravais-Pearson) tra due variabili statistiche è un indice che esprime un'eventuale relazione di linearità tra esse.[1]

Definizione[modifica | modifica wikitesto]

Date due variabili statistiche X e Y, l'indice di correlazione di Pearson è definito come la loro covarianza divisa per il prodotto delle deviazioni standard delle due variabili:

\ \rho_{XY} = \frac{\sigma_{XY}}{\sigma_X \sigma_Y}.

dove \ \sigma_{XY}, è la covarianza tra X e Y e \ \sigma_X , \sigma_Y, sono le due deviazioni standard

Il coefficiente assume sempre valori compresi tra -1 e 1:[2]

\ -1 \leq \rho_{XY} \leq 1 .

Correlazione e indipendenza[modifica | modifica wikitesto]

Nella pratica si distinguono vari "tipi" di correlazione.

  • Se \ \rho_{XY} > 0, le variabili X e Y si dicono direttamente correlate, oppure correlate positivamente;
  • se \ \rho_{XY} = 0, le variabili X e Y si dicono incorrelate;
  • se \ \rho_{XY} < 0, le variabili X e Y si dicono inversamente correlate, oppure correlate negativamente.

Inoltre per la correlazione diretta (e analogamente per quella inversa) si distingue:

  • se \ 0 < \rho_{XY} < 0,3 si ha correlazione debole;
  • se \ 0,3 < \rho_{XY} < 0,7 si ha correlazione moderata;
  • se \ \rho_{XY} > 0,7 si ha correlazione forte.

L'indice di correlazione vale 0 se le due variabili sono indipendenti. Non vale la conclusione opposta: in altri termini, l'incorrelazione è condizione necessaria ma non sufficiente per l'indipendenza. Per esempio data la distribuzione

X: -3 -2 -1 0 1 2 3
Y: 9 4 1 0 1 4 9

abbiamo che X e Y non sono indipendenti in quanto legate dalla relazione {\textstyle Y=X^2 }, ma  \rho_{XY} =0 .

L'ipotesi di assenza di autocorrelazione è più restrittiva ed implica quella di indipendenza fra due variabili.

L'indice di correlazione vale + 1 in presenza di correlazione lineare positiva (cioè Y = a + b X, con b>0), mentre vale -1 in presenza di correlazione lineare negativa (cioè Y = a + b X, con b<0).

Valori prossimi a +1 (o -1) possono essere misurati anche in presenza di relazioni non lineari. Per esempio, la seguente relazione quadratica:  Y = X^2

X: 1 2 3 4
Y: 1 4 9 16

produce un coefficiente  \rho_{XY} = 0,9844 .

Generalizzazione a più di due variabili[modifica | modifica wikitesto]

Gli indici di correlazione di n variabili possono essere presentati in una matrice di correlazione, che è una matrice quadrata di dimensione n\times n avente sia sulle righe che sulle colonne le variabili oggetto di studio. La matrice è simmetrica, cioè (\rho_{ji} = \rho_{{ij}}), e i coefficienti sulla diagonale valgono 1, in quanto

\ \rho_{ii} = \frac{\sigma_{ii}}{\sigma_i^2}

Note[modifica | modifica wikitesto]

  1. ^ a b Glossario Istat
  2. ^ Sheldon, p. 117.

Bibliografia[modifica | modifica wikitesto]

Voci correlate[modifica | modifica wikitesto]