Test chi quadrato di Pearson

Il test chi quadrato di Pearson (o della bontà dell'adattamento) è un test non parametrico applicato a grandi campioni quando si è in presenza di variabili nominali e si vuole verificare se il campione è stato estratto da una popolazione con una predeterminata distribuzione o che due o più campioni derivino dalla stessa popolazione.

Fa parte di un'ampia classe di test detti test chi quadrato in quanto hanno in comune le formule e la variabile casuale Chi Quadrato ma non necessariamente anche le ipotesi di base o le finalità.

Test della bontà dell'adattamento[modifica | modifica wikitesto]

Questa variante del test utilizza i dati di un solo campione e verifica l'ipotesi nulla che il campione sia stato estratto da una popolazione di cui è nota la distribuzione.

Sia

X^{2}=\sum _{i=1}^{g}{\frac {(n_{i}-E_{i})^{2}}{E_{i}}}=\sum _{i=1}^{g}{\frac {n_{i}^{2}}{E_{i}}}-n

dove

n_{i}

è il numero di casi osservati nel campione per la i-esima modalità

E_{i}

è il numero di casi attesi nel caso l'ipotesi nulla fosse vera

g è il numero di modalità nella quale si esprime la variabile nominale

n=\sum _{i=1}^{g}n_{i}=\sum _{i=1}^{g}E_{i}

è la numerosità del campione.

Allora X² è distribuita approssimativamente come una variabile casuale Chi Quadrato con (g-1) gradi di libertà $\chi _{g-1}^{2}$ .

Si richiede però che tutte le frequenze attese $E_{i}$ raggiungano un valore minimo (a seconda delle esigenze, almeno pari a 5 oppure almeno pari a 10). Qualora ci siano delle frequenze attese troppo piccole, bisogna procedere ad un raggruppamento di modalità.

Test per due campioni indipendenti[modifica | modifica wikitesto]

Questa variante del test, per molti versi uguale alla precedente, verifica l'ipotesi nulla che due campioni siano indipendenti e derivino dalla stessa popolazione (di cui non è richiesto conoscere la distribuzione).

Organizzati i dati in una tabella di contingenza g x 2, sia

X^{2}=\sum _{i=1}^{g}\sum _{j=1}^{2}{\frac {(n_{ij}-E_{ij})^{2}}{E_{ij}}}=\sum _{i=1}^{g}\sum _{j=1}^{2}{\frac {n_{ij}^{2}}{E_{ij}}}\ -\ n

dove

n_{ij}

è il numero di casi osservati nel campione j e che corrispondono alla i-esima modalità

E_{ij}

è il numero di casi attesi nel campione j e per la i-esima modalità nel caso l'ipotesi nulla fosse vera

g è il numero di modalità nella quale si esprime la variabile nominale

n=\sum _{i=1}^{g}\sum _{j=1}^{2}n_{ij}=\sum _{i=1}^{g}\sum _{j=1}^{2}E_{ij}

è la numerosità dei due campioni messi insieme.

per via dell'ipotesi di indipendenza dei campioni si ha che

E_{ij}={\frac {n_{.j}\ n_{i.}}{n}}

essendo

n_{.j}=\sum _{i=1}^{g}n_{ij}

, la numerosità di ciascun campione

n_{i.}=\sum _{j=1}^{2}n_{ij}

, la frequenza marginale per ciascuna della g modalità

Allora, se i campioni sono sufficientemente grandi, e le modalità tali che tutti gli $e_{ij}$ non sono troppo piccoli (a seconda della esigenze almeno pari a 5 o almeno pari a 10), la variabile test X² è distribuita come una variabile casuale Chi Quadrato con (g-1) gradi di libertà ( $\chi _{g-1}^{2}$ )

Test per k campioni indipendenti[modifica | modifica wikitesto]

Questa variante del test, praticamente uguale alla precedente, verifica l'ipotesi nulla che k campioni siano indipendenti e derivino dalla stessa popolazione (di cui non è richiesto conoscere la distribuzione).

Organizzati i dati in una tabella di contingenza g x k, sia

X^{2}=\sum _{i=1}^{g}\sum _{j=1}^{k}{\frac {(n_{ij}-E_{ij})^{2}}{E_{ij}}}=\sum _{i=1}^{g}\sum _{j=1}^{k}{\frac {n_{ij}^{2}}{E_{ij}}}\ -\ n

dove

n_{ij}

è il numero di casi osservati nel campione j e che corrispondono alla i-esima modalità

E_{ij}

è il numero di casi attesi nel campione j e per la i-esima modalità nel caso l'ipotesi nulla fosse vera

g è il numero di modalità nella quale si esprime la variabile nominale

n=\sum _{i=1}^{g}\sum _{j=1}^{k}n_{ij}=\sum _{i=1}^{g}\sum _{j=1}^{k}E_{ij}

è la numerosità di tutti i campioni messi insieme.

per via dell'ipotesi di indipendenza dei campioni si ha che

E_{ij}={\frac {n_{.j}\ n_{i.}}{n}}

essendo

n_{.j}=\sum _{i=1}^{g}n_{ij}

, la numerosità di ciascuno dei k campioni

n_{i.}=\sum _{j=1}^{k}n_{ij}

, la frequenza marginale per ciascuna della g modalità

Allora, se i campioni sono sufficientemente grandi, e le modalità tali che tutti gli $e_{ij}$ non sono troppo piccoli (a seconda della esigenze almeno pari a 5 o almeno pari a 10), la variabile test X² è distribuita come una variabile casuale Chi Quadrato con (g-1)(k-1) gradi di libertà ( $\chi _{(g-1)(k-1)}^{2}$ )

Test alternativi[modifica | modifica wikitesto]

Qualora la variabile nominale sia dicotomica, allora si può fare ricorso al test binomiale, valido anche nel caso di piccoli campioni.

Nel caso di un solo o al massimo due campioni, qualora la variabile sia stata all'origine ordinale (e possibilmente continua) allora si può fare ricorso al test di Kolmogorov-Smirnov, per il quale non si pone il problema di valori attesi piccoli e dunque, non necessitando di raggruppare le classi, sfrutta meglio le informazioni presenti nei dati.

Nel caso di due campioni e una variabile dicotomica, si può ricorrere al test esatto di Fisher che sfrutta tutte le informazioni disponibili nei dati, qualora si tratti di variabili intrinsecamente dicotomiche.

Voci correlate[modifica | modifica wikitesto]

Test chi quadrato di Pearson

Indice

Test della bontà dell'adattamento[modifica | modifica wikitesto]

Test per due campioni indipendenti[modifica | modifica wikitesto]

Test per k campioni indipendenti[modifica | modifica wikitesto]

Test alternativi[modifica | modifica wikitesto]

Voci correlate[modifica | modifica wikitesto]

Menu di navigazione

Test chi quadrato di Pearson

Test della bontà dell'adattamento[modifica | modifica wikitesto]

Test per due campioni indipendenti[modifica | modifica wikitesto]

Test per k campioni indipendenti[modifica | modifica wikitesto]

Test alternativi[modifica | modifica wikitesto]

Voci correlate[modifica | modifica wikitesto]

Menu di navigazione

Ricerca