Indice di correlazione di Pearson
In teoria degli errori, l'indice di correlazione di Pearson, anche detto coefficiente di correlazione di Pearson (o di Bravais-Pearson) tra due variabili aleatorie è un coefficiente che esprime la linearità tra la loro covarianza e il prodotto delle rispettive deviazioni standard.
Gli indici di correlazione di Pearson si usano nell'analisi di correlazione di Pearson (Pearson correlation analysis in inglese).
Date due variabili statistiche X e Y, indice di correlazione di Pearson è definito come la loro covarianza divisa per il prodotto delle deviazioni standard delle due variabili:
.
dove
, è la covarianza tra X e Y
, sono le due deviazioni standard
Il coefficiente assume sempre valori compresi tra -1 e 1:
.
Se:
-
, le variabili
e
si dicono direttamente correlate, oppure correlate positivamente;
, le variabili
e
si dicono incorrelate;
, le variabili
e
si dicono inversamente correlate, oppure correlate negativamente.
Per la correlazione diretta si distingue inoltre:
-
: correlazione debole;
: correlazione moderata;
: correlazione forte.
L'indice di correlazione vale 0 se le due variabili sono indipendenti. Non vale la conclusione opposta: in altri termini, la scorrelazione è condizione necessaria ma non sufficiente per l'indipendenza. L'ipotesi di assenza di autocorrelazione è più restrittiva ed implica quella di indipendenza fra due variabili.
L'indice di correlazione vale + 1 in presenza di correlazione lineare positiva (y = a + b x, dove b>0), mentre vale -1 in presenza di correlazione lineare negativa (p.es.: y = a + b x, con b<0).
Valori prossimi a +1 (o -1) possono essere misurati anche in presenza di relazioni non lineari. Per esempio, la seguente relazione quadratica: 
| X: | 1 | 2 | 3 | 4 |
|---|---|---|---|---|
| Y: | 1 | 4 | 9 | 16 |
produce un coefficiente pari a 0,9844.
Gli indici di Pearson di n variabili possono essere presentati in una matrice di correlazione, che è una matrice quadrata di dimensione
avente nelle righe e colonne le variabili oggetto di studio. La matrice è simmetrica
e i coefficienti sulla diagonale valgono 1, in quanto
Voci correlate [modifica]
- Regressione lineare
- Correlazione
- Karl Pearson
- Francis Galton, il primo a introdurre la lettera r (come abbreviazione di "regressione") anche se utilizzava un coefficiente diverso, in quanto normava usando lo scarto interquartile.
.
, è la
, sono le due
.
, le variabili
e
si dicono direttamente correlate, oppure correlate positivamente;
, le variabili
, le variabili
: correlazione debole;
: correlazione moderata;
: correlazione forte.