Test chi quadrato di Pearson

Da Wikipedia, l'enciclopedia libera.

Il test chi quadrato di Pearson (o della bontà dell'adattamento) è un test non parametrico applicato a grandi campioni quando si è in presenza di variabili nominali e si vuole verificare se il campione è stato estratto da una popolazione con una predeterminata distribuzione o che due o più campioni derivino dalla stessa popolazione.

Fa parte di un'ampia classe di test detti test chi quadrato in quanto hanno in comune le formule e la variabile casuale Chi Quadrato ma non necessariamente anche le ipotesi di base o le finalità.

Test della bontà dell'adattamento[modifica | modifica sorgente]

Questa variante del test utilizza i dati di un solo campione e verifica l'ipotesi nulla che il campione sia stato estratto da una popolazione di cui è nota la distribuzione.

Sia

X^2=\sum_{i=1}^{g}\frac{(n_i-E_i)^2}{E_i}=\sum_{i=1}^{g}\frac{n_i^2}{E_i}-n

dove

n_i è il numero di casi osservati nel campione per la i-esima modalità
E_i è il numero di casi attesi nel caso l'ipotesi nulla fosse vera
g è il numero di modalità nella quale si esprime la variabile nominale
n=\sum_{i=1}^{g}n_i=\sum_{i=1}^{g}E_i è la numerosità del campione.

Allora X² è distribuita approssimativamente come una variabile casuale Chi Quadrato con (g-1) gradi di libertà \chi_{g-1}^2.

Si richiede però che tutte le frequenze attese E_i raggiungano un valore minimo (a seconda delle esigenze, almeno pari a 5 oppure almeno pari a 10). Qualora ci siano delle frequenze attese troppo piccole, bisogna procedere ad un raggruppamento di modalità.

Test per due campioni indipendenti[modifica | modifica sorgente]

Questa variante del test, per molti versi uguale alla precedente, verifica l'ipotesi nulla che due campioni siano indipendenti e derivino dalla stessa popolazione (di cui non è richiesto conoscere la distribuzione).

Organizzati i dati in una tabella di contingenza g x 2, sia

X^2=\sum_{i=1}^{g}\sum_{j=1}^{2}\frac{(n_{ij}-E_{ij})^2}{E_{ij}}=\sum_{i=1}^{g}\sum_{j=1}^{2}\frac{n_{ij}^2}{E_{ij}}\ -\ n

dove

n_{ij} è il numero di casi osservati nel campione j e che corrispondono alla i-esima modalità
E_{ij} è il numero di casi attesi nel campione j e per la i-esima modalità nel caso l'ipotesi nulla fosse vera
g è il numero di modalità nella quale si esprime la variabile nominale
n=\sum_{i=1}^{g}\sum_{j=1}^{2}n_{ij}=\sum_{i=1}^{g}\sum_{j=1}^{2}E_{ij} è la numerosità dei due campioni messi insieme.

per via dell'ipotesi di indipendenza dei campioni si ha che

E_{ij}=\frac{n_{.j}\ n_{i.}}{n}

essendo

n_{.j}=\sum_{i=1}^{g}n_{ij} , la numerosità di ciascun campione
n_{i.}=\sum_{j=1}^{2}n_{ij} , la frequenza marginale per ciascuna della g modalità

Allora, se i campioni sono sufficientemente grandi, e le modalità tali che tutti gli e_{ij} non sono troppo piccoli (a seconda della esigenze almeno pari a 5 o almeno pari a 10), la variabile test X² è distribuita come una variabile casuale Chi Quadrato con (g-1) gradi di libertà (\chi^2_{g-1})

Test per k campioni indipendenti[modifica | modifica sorgente]

Questa variante del test, praticamente uguale alla precedente, verifica l'ipotesi nulla che k campioni siano indipendenti e derivino dalla stessa popolazione (di cui non è richiesto conoscere la distribuzione).

Organizzati i dati in una tabella di contingenza g x k, sia

X^2=\sum_{i=1}^{g}\sum_{j=1}^{k}\frac{(n_{ij}-E_{ij})^2}{E_{ij}}=\sum_{i=1}^{g}\sum_{j=1}^{k}\frac{n_{ij}^2}{E_{ij}}\ -\ n

dove

n_{ij} è il numero di casi osservati nel campione j e che corrispondono alla i-esima modalità
E_{ij} è il numero di casi attesi nel campione j e per la i-esima modalità nel caso l'ipotesi nulla fosse vera
g è il numero di modalità nella quale si esprime la variabile nominale
n=\sum_{i=1}^{g}\sum_{j=1}^{k}n_{ij}=\sum_{i=1}^{g}\sum_{j=1}^{k}E_{ij} è la numerosità di tutti i campioni messi insieme.

per via dell'ipotesi di indipendenza dei campioni si ha che

E_{ij}=\frac{n_{.j}\ n_{i.}}{n}

essendo

n_{.j}=\sum_{i=1}^{g}n_{ij} , la frequenza marginale per ciascuna della g modalità
n_{i.}=\sum_{j=1}^{k}n_{ij} , la numerosità di ciascun campione

Allora, se i campioni sono sufficientemente grandi, e le modalità tali che tutti gli e_{ij} non sono troppo piccoli (a seconda della esigenze almeno pari a 5 o almeno pari a 10), la variabile test X² è distribuita come una variabile casuale Chi Quadrato con (g-1)(k-1) gradi di libertà (\chi^2_{(g-1)(k-1)})

Test alternativi[modifica | modifica sorgente]

Qualora la variabile nominale sia dicotomica, allora si può fare ricorso al test binomiale, valido anche nel caso di piccoli campioni.

Nel caso di un solo o al massimo due campioni, qualora la variabile sia stata all'origine ordinale (e possibilmente continua) allora si può fare ricorso al test di Kolmogorov-Smirnov, per il quale non si pone il problema di valori attesi piccoli e dunque, non necessitando di raggruppare le classi, sfrutta meglio le informazioni presenti nei dati.

Nel caso di due campioni e una variabile dicotomica, si può ricorrere al test esatto di Fisher che sfrutta tutte le informazioni disponibili nei dati, qualora si tratti di variabili intrinsecamente dicotomiche.

Voci correlate[modifica | modifica sorgente]