Test chi quadrato di Pearson

Da Wikipedia, l'enciclopedia libera.
Vai alla navigazione Vai alla ricerca

Il test chi quadrato di Pearson (o della bontà dell'adattamento) è un test non parametrico applicato a grandi campioni quando si è in presenza di variabili nominali e si vuole verificare se il campione è stato estratto da una popolazione con una predeterminata distribuzione o che due o più campioni derivino dalla stessa popolazione.

Fa parte di un'ampia classe di test detti test chi quadrato in quanto hanno in comune le formule e la variabile casuale Chi Quadrato ma non necessariamente anche le ipotesi di base o le finalità.

Test della bontà dell'adattamento[modifica | modifica wikitesto]

Questa variante del test utilizza i dati di un solo campione e verifica l'ipotesi nulla che il campione sia stato estratto da una popolazione di cui è nota la distribuzione.

Sia

dove

è il numero di casi osservati nel campione per la i-esima modalità
è il numero di casi attesi nel caso l'ipotesi nulla fosse vera
g è il numero di modalità nella quale si esprime la variabile nominale
è la numerosità del campione.

Allora X² è distribuita approssimativamente come una variabile casuale Chi Quadrato con (g-1) gradi di libertà .

Si richiede però che tutte le frequenze attese raggiungano un valore minimo (a seconda delle esigenze, almeno pari a 5 oppure almeno pari a 10). Qualora ci siano delle frequenze attese troppo piccole, bisogna procedere ad un raggruppamento di modalità.

Test per due campioni indipendenti[modifica | modifica wikitesto]

Questa variante del test, per molti versi uguale alla precedente, verifica l'ipotesi nulla che due campioni siano indipendenti e derivino dalla stessa popolazione (di cui non è richiesto conoscere la distribuzione).

Organizzati i dati in una tabella di contingenza g x 2, sia

dove

è il numero di casi osservati nel campione j e che corrispondono alla i-esima modalità
è il numero di casi attesi nel campione j e per la i-esima modalità nel caso l'ipotesi nulla fosse vera
g è il numero di modalità nella quale si esprime la variabile nominale
è la numerosità dei due campioni messi insieme.

per via dell'ipotesi di indipendenza dei campioni si ha che

essendo

, la numerosità di ciascun campione
, la frequenza marginale per ciascuna della g modalità

Allora, se i campioni sono sufficientemente grandi, e le modalità tali che tutti gli non sono troppo piccoli (a seconda della esigenze almeno pari a 5 o almeno pari a 10), la variabile test X² è distribuita come una variabile casuale Chi Quadrato con (g-1) gradi di libertà ()

Test per k campioni indipendenti[modifica | modifica wikitesto]

Questa variante del test, praticamente uguale alla precedente, verifica l'ipotesi nulla che k campioni siano indipendenti e derivino dalla stessa popolazione (di cui non è richiesto conoscere la distribuzione).

Organizzati i dati in una tabella di contingenza g x k, sia

dove

è il numero di casi osservati nel campione j e che corrispondono alla i-esima modalità
è il numero di casi attesi nel campione j e per la i-esima modalità nel caso l'ipotesi nulla fosse vera
g è il numero di modalità nella quale si esprime la variabile nominale
è la numerosità di tutti i campioni messi insieme.

per via dell'ipotesi di indipendenza dei campioni si ha che

essendo

, la numerosità di ciascuno dei k campioni
, la frequenza marginale per ciascuna della g modalità

Allora, se i campioni sono sufficientemente grandi, e le modalità tali che tutti gli non sono troppo piccoli (a seconda della esigenze almeno pari a 5 o almeno pari a 10), la variabile test X² è distribuita come una variabile casuale Chi Quadrato con (g-1)(k-1) gradi di libertà ()

Test alternativi[modifica | modifica wikitesto]

Qualora la variabile nominale sia dicotomica, allora si può fare ricorso al test binomiale, valido anche nel caso di piccoli campioni.

Nel caso di un solo o al massimo due campioni, qualora la variabile sia stata all'origine ordinale (e possibilmente continua) allora si può fare ricorso al test di Kolmogorov-Smirnov, per il quale non si pone il problema di valori attesi piccoli e dunque, non necessitando di raggruppare le classi, sfrutta meglio le informazioni presenti nei dati.

Nel caso di due campioni e una variabile dicotomica, si può ricorrere al test esatto di Fisher che sfrutta tutte le informazioni disponibili nei dati, qualora si tratti di variabili intrinsecamente dicotomiche.

Voci correlate[modifica | modifica wikitesto]