Indice di correlazione di Pearson

Da Wikipedia, l'enciclopedia libera.
(Reindirizzamento da Coefficiente di correlazione)
Jump to navigation Jump to search
Esempi di grafici di dispersione con differenti valori di indice di correlazione (ρ)

In statistica, l'indice di correlazione di Pearson (anche detto coefficiente di correlazione lineare[1] o coefficiente di correlazione di Pearson o coefficiente di correlazione di Bravais-Pearson) tra due variabili statistiche è un indice che esprime un'eventuale relazione di linearità tra esse.[1] Secondo la disuguaglianza di Cauchy-Schwarz ha un valore compreso tra e dove corrisponde alla perfetta correlazione lineare positiva, corrisponde a un'assenza di correlazione lineare e corrisponde alla perfetta correlazione lineare negativa. Fu sviluppato da Karl Pearson da un'idea introdotta da Francis Galton nel 1880; la formula matematica fu derivata e pubblicata da Auguste Bravais nel 1844.[2][3][4]La denominazione del coefficiente è anche un esempio della legge di Stigler.

Definizione[modifica | modifica wikitesto]

Date due variabili statistiche e , l'indice di correlazione di Pearson è definito come la loro covarianza divisa per il prodotto delle deviazioni standard delle due variabili:

.

dove è la covarianza tra e e sono le due deviazioni standard.

Il coefficiente assume sempre valori compresi tra e [5]

Correlazione e indipendenza[modifica | modifica wikitesto]

Nella pratica si distinguono vari "tipi" di correlazione.

  • Se , le variabili e si dicono direttamente correlate, oppure correlate positivamente;
  • se , le variabili e si dicono incorrelate;
  • se , le variabili e si dicono inversamente correlate, oppure correlate negativamente.

Inoltre per la correlazione diretta (e analogamente per quella inversa) si distingue:

  • se si ha correlazione debole;
  • se si ha correlazione moderata;
  • se si ha correlazione forte.

Se le due variabili sono indipendenti allora l'indice di correlazione vale 0. Non vale la conclusione opposta: in altri termini, l'incorrelazione è condizione necessaria ma non sufficiente per l'indipendenza. Per esempio data la distribuzione

X: -3 -2 -1 0 1 2 3
Y: 9 4 1 0 1 4 9

abbiamo che e non sono indipendenti in quanto legate dalla relazione , ma .

L'ipotesi di assenza di autocorrelazione è più restrittiva ed implica quella di indipendenza fra due variabili.

L'indice di correlazione vale in presenza di correlazione lineare positiva perfetta (cioè , con ), mentre vale in presenza di correlazione lineare negativa perfetta (cioè , con ).

Valori prossimi a (o ) possono essere misurati anche in presenza di relazioni non lineari. Per esempio, la seguente relazione quadratica:

X: 1 2 3 4
Y: 1 4 9 16

produce un coefficiente .

Generalizzazione a più di due variabili[modifica | modifica wikitesto]

Gli indici di correlazione di variabili possono essere presentati in una matrice di correlazione, che è una matrice quadrata di dimensione avente sia sulle righe che sulle colonne le variabili oggetto di studio. La matrice è simmetrica, cioè , e i coefficienti sulla diagonale valgono in quanto

Proprietà matematiche[modifica | modifica wikitesto]

Un valore dell'indice di correlazione uguale a o corrisponde a punti che si trovano esattamente su una linea retta. Il coefficiente di correlazione di Pearson è simmetrico:

Una proprietà matematica caratteristica del coefficiente di correlazione di Pearson è che non varia rispetto ai cambiamenti singoli della posizione e della scala delle due variabili. Cioè, possiamo trasformare in e trasformare in dove e sono costanti reali con senza modificare il coefficiente di correlazione.

Note[modifica | modifica wikitesto]

Bibliografia[modifica | modifica wikitesto]

Voci correlate[modifica | modifica wikitesto]

Collegamenti esterni[modifica | modifica wikitesto]

Controllo di autoritàGND (DE4165345-2