Indice di correlazione di Pearson

Da Wikipedia, l'enciclopedia libera.
(Reindirizzamento da Coefficiente di correlazione)
Esempi di grafici di dispersione con differenti valori di indice di correlazione (ρ)

In statistica, l'indice di correlazione di Pearson (anche detto coefficiente di correlazione lineare[1] o coefficiente di correlazione di Pearson o coefficiente di correlazione di Bravais-Pearson) tra due variabili statistiche è un indice che esprime un'eventuale relazione di linearità tra esse.[1]

Definizione[modifica | modifica wikitesto]

Date due variabili statistiche e , l'indice di correlazione di Pearson è definito come la loro covarianza divisa per il prodotto delle deviazioni standard delle due variabili:

.

dove è la covarianza tra e e sono le due deviazioni standard.

Il coefficiente assume sempre valori compresi tra -1 e 1:[2]

.

Correlazione e indipendenza[modifica | modifica wikitesto]

Nella pratica si distinguono vari "tipi" di correlazione.

  • Se , le variabili e si dicono direttamente correlate, oppure correlate positivamente;
  • se , le variabili e si dicono incorrelate;
  • se , le variabili e si dicono inversamente correlate, oppure correlate negativamente.

Inoltre per la correlazione diretta (e analogamente per quella inversa) si distingue:

  • se si ha correlazione debole;
  • se si ha correlazione moderata;
  • se si ha correlazione forte.

Se le due variabili sono indipendenti allora l'indice di correlazione vale 0. Non vale la conclusione opposta: in altri termini, l'incorrelazione è condizione necessaria ma non sufficiente per l'indipendenza. Per esempio data la distribuzione

X: -3 -2 -1 0 1 2 3
Y: 9 4 1 0 1 4 9

abbiamo che e non sono indipendenti in quanto legate dalla relazione , ma .

L'ipotesi di assenza di autocorrelazione è più restrittiva ed implica quella di indipendenza fra due variabili.

L'indice di correlazione vale + 1 in presenza di correlazione lineare positiva perfetta (cioè , con ), mentre vale -1 in presenza di correlazione lineare negativa perfetta (cioè , con ).

Valori prossimi a +1 (o -1) possono essere misurati anche in presenza di relazioni non lineari. Per esempio, la seguente relazione quadratica:

X: 1 2 3 4
Y: 1 4 9 16

produce un coefficiente .

Generalizzazione a più di due variabili[modifica | modifica wikitesto]

Gli indici di correlazione di variabili possono essere presentati in una matrice di correlazione, che è una matrice quadrata di dimensione avente sia sulle righe che sulle colonne le variabili oggetto di studio. La matrice è simmetrica, cioè , e i coefficienti sulla diagonale valgono 1, in quanto

Note[modifica | modifica wikitesto]

  1. ^ a b Glossario Istat
  2. ^ Sheldon, p. 117.

Bibliografia[modifica | modifica wikitesto]

Voci correlate[modifica | modifica wikitesto]