Test esatto di Fisher

Il test esatto di Fisher (o test di Fisher-Yates, test di Fisher-Irwin, test esatto del chi²^[1]) è un test per la verifica d'ipotesi utilizzato nell'ambito della statistica non parametrica in situazioni con due variabili nominali dicotomiche e campioni piccoli. Porta il nome del suo ideatore Ronald Fisher.

Questo test non parametrico è usato per verificare se i dati dicotomici di due campioni riassunti in una tabella di contingenza 2x2 siano compatibili con l'ipotesi nulla (H₀) che le popolazioni di origine dei due campioni abbiano la stessa suddivisione dicotomica e che le differenze osservate con i dati campionari siano dovute semplicemente al caso.

Se i campioni sono sufficientemente grandi, e nessuna cella ha un valore inferiore a 5, allora si può usare il test chi quadrato con 1 grado di libertà. Mentre quest'ultimo test è esatto solo asintoticamente per dimensioni molto grandi dei campioni, il presente test proposto da Fisher è, come dice il nome, sempre esatto.

Il test esatto di Fisher richiede di avere due variabili nominali divise ciascuna in due sole categorie. P.es. la prima variabile potrebbe essere il "sesso" con le due categorie "donna" e "uomo" e la seconda variabile potrebbe essere "segue una dieta" con le due categorie "sì" e "no". Si ipotizza in questo caso che la percentuale di uomini che segue una dieta sia uguale alla percentuale tra le donne. I dati potrebbero essere i seguenti:

	uomini	donne	totale
in dieta	1	9	10
non in dieta	11	3	14
totale	12	12	24

Questi dati non sono idonei ad essere analizzati con il test chi quadrato in quanto il valore atteso è in alcune celle al limite (5 secondo alcuni, 10 secondo altri).

Per descrivere il test di Fisher è utile introdurre la seguente notazione, nella quale le lettere a, b, c e d indicano i valori nelle celle e n è la somma totale. La tabella di contingenza verrebbe descritta così:

	uomini	donne	totale
in dieta	a	b	a+b
non in dieta	c	d	c+d
totale	a+c	b+d	n

Ronald Fisher dimostrò che la probabilità di ottenere tali valori (vincolati alle somme di riga e colonna realmente osservati) segue la variabile casuale ipergeometrica ed è pari a:

p={\frac {(a+b)!(c+d)!(a+c)!(b+d)!}{n!a!b!c!d!}}

Questa formula dà le probabilità esatte di osservare i valori a, b, c, d (dati a+b, a+c, c+d, b+d) qualora fosse vera l'ipotesi nulla sopra enunciata.

Per verificare se i valori osservati sono eccessivamente diversi da quanto previsto dall'ipotesi nulla, si sommano le probabilità di quanto osservato e di tutti i casi ancora più estremi. Nel nostro esempio l'unico caso ancora più estremo è dato da:

	uomini	donne	totale
in dieta	0	10	10
non in dieta	12	2	14
totale	12	12	24

Per la prima tabella la probabilità è

p_{1}={\frac {10!14!12!12!}{24!1!9!11!3!}}=0.0013461

mentre per la seconda

p_{0}={\frac {10!14!12!12!}{24!0!10!12!2!}}=0.00003

sommando si ottiene:

p = p₀ + p₁ = 0,00138 = 0,14%

il che vuol dire:

se: l'ipotesi nulla è vera
allora: solo in 14 esperimenti su 10.000 si otterrebbero valori così discordanti tra uomini e donne.

Questo è il risultato del test con l'ipotesi alternativa a una coda. Il test applicato all'ipotesi alternativa a due code, indicherebbe una probabilità del 0,002759 (0,28%).

Essendo il calcolo spesso molto laborioso, si ricorre solitamente a tavole con i valori già precalcolati oppure al calcolatore, per esempio usando software applicativi per la statistica.