Coefficiente di correlazione per ranghi di Spearman

Da Wikipedia, l'enciclopedia libera.
Esempio dove il coefficiente di Spearman è pari a 1. Contrariamente il coefficiente di Pearson non è ottimale.

L'indice di correlazione R per ranghi di Spearman è una misura statistica non parametrica della correlazione e misura pertanto il grado di relazione tra due variabili per le quali non si fa altra ipotesi che non la misura ordinale ma possibilmente continua.

Porta il nome dello psicologo Charles Spearman che lo ideò nel 1904 e viene indicata solitamente con la lettera greca ρs (rho).

Diversamente dal coefficiente di correlazione lineare di Pearson, non misura una relazione lineare anche qualora venissero usate misure intervallari.

William Sealy Gosset, alias Student, discusse questo coefficiente nel 1921 in An experimental determination of the probable error of Dr Spearman's correlation coefficients (Biometrika).

Calcolo del coefficiente[modifica | modifica sorgente]

A livello pratico il coefficiente ρ è semplicemente un caso particolare del coefficiente di correlazione di Pearson dove i valori vengono convertiti in ranghi prima di calcolare il coefficiente,


\rho_s = \frac{\sum_{i}(r_i-\overline{r})(s_i-\overline{s})} {\sqrt{\sum_{i}(r_i-\overline{r}) ^2}\sqrt{\sum_{i}(s_i-\overline{s})^2}}
.
Cosa cazzo è r bar????

anche se solitamente si segue un calcolo più semplice, in quanto si calcola la differenza D tra i ranghi delle due misure di un'osservazione, ottenendo così

 \rho_s = 1- {\frac {6 \sum_i D_i^2}{N(N^2 - 1)}}

dove

D_i = r_i - s_i è la differenza dei ranghi (essendo ri e si rispettivamente il rango della prima variabile e della seconda variabile della i-esima osservazione
N il numero complessivo di osservazioni

La formula si complica in presenza di valori identici (ties), ma gli effetti di questi possono essere ignorati se non sono frequenti rispetto alla numerosità campionaria N.

Test di verifica d'ipotesi[modifica | modifica sorgente]

Per verificare l'ipotesi che ρ è significativamente diverso da zero, il valore osservato di ρ può essere confrontato con l'apposita variabile casuale di Spearman anche consultando le apposite tavole pubblicate per differenti percentuali di significatività.

Nel caso di numerosità campionaria sufficientemente grande (orientativamente N > 20) si può far ricorso alla variabile casuale t di Student (con n-2 gradi di libertà) trasformando opportunamente il valore ρs

t = \frac{\rho_s}{\sqrt{(1-\rho_s^2)/(n-2)}}

Alcuni autori indicano come livemente peggiore la variabile di test

z=\rho_s\sqrt{N-1} , distribuita come una variabile casuale normale.

Nel caso si voglia verificare l'ipotesi che ρs abbia un particolare valore diverso da zero, quest'ultima approssimazione che fa ricorso alla t di Student è meno potente, ma ancora valida.

Una generalizzazione del coefficiente di Spearman è utile in situazioni in cui si vuole verificare che le osservazioni avvengano in un particolare ordine, per esempio quando si vuole verificare che i valori migliorano tra un esperimento e l'altro. In tal caso si fa ricorso al test di Page per alternative ordinate sviluppato da E. B. Page.