Indice di correlazione di Pearson

Da Wikipedia, l'enciclopedia libera.

In statistica, l'indice di correlazione di Pearson (anche detto coefficiente di correlazione lineare[1] o coefficiente di correlazione di Pearson o coefficiente di correlazione di Bravais-Pearson) tra due variabili statistiche è un indice che esprime un'eventuale relazione di linearità tra esse.[1]

Definizione[modifica | modifica wikitesto]

Date due variabili statistiche e , l'indice di correlazione di Pearson è definito come la loro covarianza divisa per il prodotto delle deviazioni standard delle due variabili:

.

dove è la covarianza tra e e sono le due deviazioni standard.

Il coefficiente assume sempre valori compresi tra -1 e 1:[2]

.

Correlazione e indipendenza[modifica | modifica wikitesto]

Nella pratica si distinguono vari "tipi" di correlazione.

  • Se , le variabili e si dicono direttamente correlate, oppure correlate positivamente;
  • se , le variabili e si dicono incorrelate;
  • se , le variabili e si dicono inversamente correlate, oppure correlate negativamente.

Inoltre per la correlazione diretta (e analogamente per quella inversa) si distingue:

  • se si ha correlazione debole;
  • se si ha correlazione moderata;
  • se si ha correlazione forte.

L'indice di correlazione vale 0 se le due variabili sono indipendenti. Non vale la conclusione opposta: in altri termini, l'incorrelazione è condizione necessaria ma non sufficiente per l'indipendenza. Per esempio data la distribuzione

X: -3 -2 -1 0 1 2 3
Y: 9 4 1 0 1 4 9

abbiamo che e non sono indipendenti in quanto legate dalla relazione , ma .

L'ipotesi di assenza di autocorrelazione è più restrittiva ed implica quella di indipendenza fra due variabili.

L'indice di correlazione vale + 1 in presenza di correlazione lineare positiva (cioè , con ), mentre vale -1 in presenza di correlazione lineare negativa (cioè , con ).

Valori prossimi a +1 (o -1) possono essere misurati anche in presenza di relazioni non lineari. Per esempio, la seguente relazione quadratica:

X: 1 2 3 4
Y: 1 4 9 16

produce un coefficiente .

Generalizzazione a più di due variabili[modifica | modifica wikitesto]

Gli indici di correlazione di variabili possono essere presentati in una matrice di correlazione, che è una matrice quadrata di dimensione avente sia sulle righe che sulle colonne le variabili oggetto di studio. La matrice è simmetrica, cioè , e i coefficienti sulla diagonale valgono 1, in quanto

Note[modifica | modifica wikitesto]

  1. ^ a b Glossario Istat
  2. ^ Sheldon, p. 117.

Bibliografia[modifica | modifica wikitesto]

Voci correlate[modifica | modifica wikitesto]