Test esatto di Fisher

Da Wikipedia, l'enciclopedia libera.

Il test esatto di Fisher (o test di Fisher-Yates, test di Fisher-Irwin, test esatto del chi²[1]) è un test per la verifica d'ipotesi utilizzato nell'ambito della statistica non parametrica in situazioni con due variabili nominali dicotomiche e campioni piccoli. Porta il nome del suo ideatore Ronald Fisher.

Questo test non parametrico è usato per verificare se i dati dicotomici di due campioni riassunti in una tabella di contingenza 2x2 siano compatibili con l'ipotesi nulla (H0) che le popolazioni di origine dei due campioni abbiano la stessa suddivisione dicotomica e che le differenze osservate con i dati campionari siano dovute semplicemente al caso.

Se i campioni sono sufficientemente grandi (e nessuna cella ha un valore inferiore a 5) allora si può usare il test chi quadrato con 1 grado di libertà. Mentre quest'ultimo test è esatto solo asintoticamente per dimensioni molto grandi dei campioni, il presente test proposto da Fisher è, come dice il nome, sempre esatto.

Il test esatto di Fisher richiede di avere due variabili nominali divise ciascuna in due sole categorie. P.es. la prima variabile potrebbe essere il "sesso" con le due categorie "donna" e "uomo" e la seconda variabile potrebbe essere "segue un dieta" con le due categorie "si" e "no". Si ipotizza in questo caso che la percentuale di uomini che segue una dieta sia uguale alla percentuale tra le donne. I dati potrebbero essere i seguenti:

uomini donne totale
in dieta 1 9 10
non in dieta 11 3 14
totale 12 12 24

Questi dati non sono idonei ad essere analizzati con il test chi quadrato in quanto il valore atteso è in alcune celle al limite (5 secondo gli uni, 10 secondo altri).

Per descrivere il test di Fisher è utile introdurre la seguente notazione, nella quale le lettere a, b, c e d indicano i valori nelle celle e n è la somma totale. La tabella di contingenza verrebbe descritta così:

uomini donne totale
in dieta a b a+b
non in dieta c d c+d
totale a+c b+d n

Ronald Fisher dimostrò che la probabilità di ottenere tali valori (vincolati alle somme di riga e colonna realmente osservati) segue la variabile casuale ipergeometrica ed è pari a:

 p = {\frac {(a+b)!(c+d)!(a+c)!(b+d)!}{n!a!b!c!d!}}

Questa formula dà le probabilità esatte di osservare i valori a, b, c, d (dati a+b, a+c, c+d, b+d) qualora fosse vera l'ipotesi nulla sopra enunciata.

Per verificare se i valori osservati sono eccessivamente diversi da quanto previsto dall'ipotesi nulla, si sommano le probabilità di quanto osservato e di tutti i casi ancora più estremi. Nel nostro esempio l'unico caso ancora più estremo è dato da:

uomini donne totale
in dieta 0 10 10
non in dieta 12 2 14
totale 12 12 24

Per la prima tabella la probabilità è

 p_1 = {\frac {10!14!12!12!}{24!1!9!11!3!}} = 0.002759

(se unidirezionale 0.00135) mentre per la seconda

 p_0 = {\frac {10!14!12!12!}{24!0!10!12!2!}} = 0.00003

sommando si ottiene:

p = p0 + p1 = 0,00138 = 0,14%

il che vuol dire:

se
l'ipotesi nulla è vera
allora
solo in 14 esperimenti su 10.000 si otterrebbero valori così discordanti tra uomini e donne.

Essendo il calcolo spesso molto laborioso, si ricorre solitamente a tavole con i valori già precalcolati oppure al calcolatore, per esempio usando software applicativi per la statistica.

Voci correlate[modifica | modifica sorgente]

Note[modifica | modifica sorgente]

  1. ^ Fisher-Yates test ; Fisher-Irwin test ; Fisher exact test ; exact chi-squared test