Coefficiente di correlazione per ranghi di Spearman

Da Wikipedia, l'enciclopedia libera.


Esempio dove il coefficiente di Spearman è pari a 1. Contrariamente il coefficiente di Pearson non è ottimale.

L'indice di correlazione R per ranghi di Spearman è una misura statistica non parametrica di correlazione. Essa misura il grado di relazione tra due variabili per le quali non si fa altra ipotesi della misura ordinale, ma possibilmente continua.

Diversamente dal coefficiente di correlazione lineare di Pearson, il coefficiente di Spearman non misura una relazione lineare anche qualora vengano usate misure intervallari.

Una generalizzazione del coefficiente di Spearman è utile in situazioni in cui si vuole verificare che le osservazioni avvengano in un particolare ordine, per esempio quando si vuole verificare che i valori migliorano tra un esperimento e l'altro. In tal caso si fa ricorso al test di Page per alternative ordinate sviluppato da E. B. Page.

Storia[modifica | modifica sorgente]

In nome del coefficiente prende origine dello psicologo Charles Spearman che lo ideò nel 1904[1]. Viene indicato solitamente con la lettera greca ρs (rho) o anche come rs.

William Sealy Gosset, alias Student, discusse questo coefficiente nel 1921[2].

Calcolo del coefficiente[modifica | modifica sorgente]

A livello pratico il coefficiente ρ è semplicemente un caso particolare del coefficiente di correlazione di Pearson dove i valori vengono convertiti in ranghi prima di calcolare il coefficiente,


\rho_s = \frac{\sum_{i}(r_i-\overline{r})(s_i-\overline{s})} {\sqrt{\sum_{i}(r_i-\overline{r}) ^2}\sqrt{\sum_{i}(s_i-\overline{s})^2}}
.

anche se solitamente si esegue un calcolo più semplice, in quanto si calcola la differenza D tra i ranghi delle due misure di un'osservazione, ottenendo così

 \rho_s = 1- {\frac {6 \sum_i D_i^2}{N(N^2 - 1)}}

dove

D_i = r_i - s_i è la differenza dei ranghi (essendo ri e si rispettivamente il rango della prima variabile e della seconda variabile della i-esima osservazione
N il numero complessivo di osservazioni

La formula si complica in presenza di valori identici (ties), ma gli effetti di questi possono essere ignorati se non sono frequenti rispetto alla numerosità campionaria N.

Test di verifica d'ipotesi[modifica | modifica sorgente]

Per verificare l'ipotesi che ρ è significativamente diverso da zero, il valore osservato di ρ può essere confrontato coi valori critici della variabile casuale di Spearman, consultando le apposite tavole pubblicate per differenti percentuali di significatività.

Nel caso di numerosità campionaria sufficientemente grande (orientativamente N > 20) si può far ricorso alla variabile casuale t di Student (con n-2 gradi di libertà) trasformando opportunamente il valore ρs

t = \frac{\rho_s}{\sqrt{(1-\rho_s^2)/(n-2)}}

Alcuni autori indicano come livemente peggiore la variabile di test

z=\rho_s\sqrt{N-1} , distribuita come una variabile casuale normale.

Nel caso si voglia verificare l'ipotesi che ρs abbia un particolare valore diverso da zero, quest'ultima approssimazione che fa ricorso alla t di Student è meno potente, ma ancora valida.

Note[modifica | modifica sorgente]

  1. ^ Spearman C., 1904. The proof and measurement of association between two things. American Journal of Psychology 15: 72–101.
  2. ^ Gosset M. S., 1921. An experimental determination of the probable error of Dr. Spearman’s correlation coefficients. Biometrika 13