Test chi quadrato

Da Wikipedia, l'enciclopedia libera.
Jump to navigation Jump to search

Con test chi quadrato "χ²", si intende uno dei test di verifica d'ipotesi usati in statistica che utilizzano la distribuzione chi quadrato per decidere se rifiutare o non rifiutare l'ipotesi nulla. A seconda degli assunti di partenza usati tali test vengono considerati parametrici o non parametrici.

Il test chi quadrato è ampiamente utilizzato per verificare che le frequenze dei valori osservati si adattino alle frequenze teoriche di una distribuzione di probabilità prefissata. Per esempio, è noto che il risultato di 100 lanci di una moneta segue la distribuzione uniforme ed è difficile ottenere un risultato che si discosti sensibilmente dall'ottenere 50 teste e 50 croci. Il test chi quadrato consente di stabilire, dopo aver fissato l'errore massimo tollerato, se le discrepanze tra le frequenze osservate e quelle teoriche sono imputabili completamente al caso o se invece è lecito supporre che la moneta sia truccata.

Definizione[modifica | modifica wikitesto]

Supponiamo che in un particolare campione si sia osservato che un insieme di possibili eventi E1, E2, …, Ek si presenta con frequenze o1, o2, …, ok (dette frequenze osservate). Supponiamo poi che, secondo le regole della probabilità, ci si attenda un secondo insieme di possibili eventi con frequenze e1, e2, …, ek (dette frequenze teoriche o attese), ossia, riassumendo:

Evento E1 E2 ... Ek
Frequenze osservate o1 o2 ... ok
Frequenze attese e1 e2 ... ek

La variabile test si ottiene sommando, per ogni evento Ei il quadrato degli scarti tra le frequenze teoriche e quelle osservate, pesato sulle frequenze teoriche:

Così, se il numero totale di eventi è fissato, si distribuisce come una variabile con gradi di libertà. Altrimenti, se k è una variabile a sua volta aleatoria, ad esempio Poissoniana (come può essere in un esperimento di conteggio), si distribuisce come una variabile con gradi di libertà

Se le frequenze osservate coincidono esattamente con quelle teoriche, allora , mentre se esse differiscono, . Più grande è il valore di , più grande è la discrepanza tra le frequenze osservate e quelle teoriche.

Esempio[1][2][modifica | modifica wikitesto]

Un dado viene lanciato 2000 volte con il seguente risultato:

Esito Occorrenza
1 388 volte
2 322 volte
3 314 volte
4 316 volte
5 344 volte
6 316 volte

Si può affermare che esso non sia equilibrato?

Effettivamente il risultato 1 è apparso un numero di volte sensibilmente superiore agli altri, la frequenza attesa è di 2000/6=333,333 per ciascun risultato (il dado segue una distribuzione uniforme, quindi la frequenza attesa è la stessa per tutti i risultati).

La nostra statistica è quindi uguale a

e possiede 5 gradi di libertà.

Se fissiamo l'errore tollerato al 5% (α = 0,05) e diamo uno sguardo alle tavole della distribuzione chi quadrato con 5 gradi di libertà dobbiamo rifiutare l'ipotesi nulla con valori della statistica test superiori a 11,07.

La nostra statistica test è uguale a 12,616 pertanto dobbiamo respingere l'ipotesi nulla: ciò vuol dire che il dado non è equilibrato.

Il test chi quadrato funziona quando nessun valore si presenta con una frequenza inferiore a 5, se ciò accade è meglio utilizzare altri test sulle frequenze come il test esatto di Fisher.

Tra i test chi quadrato si possono elencare:

nonché diversi test che in determinate situazioni (solitamente quando si è in presenza di molti dati) fanno ricorso alla v.c. Chi Quadrato come distribuzione approssimativa

Esempio in R[modifica | modifica wikitesto]

Utilizzando il linguaggio di programmazione R ed il software RStudio si vuole valutare se esiste un'associazione tra le variabili degree (livello di istruzione superiore) e sex il sesso negli Stati Uniti attraverso il test di indipendenza CHI QUADRATO. Il dataset usato è stato ottenuto tramite Il "General Social Surveys" , un questionario sottoposto a persone intervistate di 18 anni o più che parlavano in inglese all'interno degli Stati Uniti d'America. In totale le interviste sono state 57.061 che rappresentano meno del 10% della popolazione Americana . Tali interviste sono state fatte tra il 1972 e il 2014 e ciascuna contiene 114 variabili di cui alcune numeriche ed altre categoriali. L'analisi fatta è osservazionale e non sperimentale quindi non si possono stabilire relazioni casuali tra le variabili.

Le condizioni necessarie per eseguire il test CHI QUADRO sono: Indipendenza: i campioni sono sia casuali, non correlati e provenienti da meno del 10% della popolazione, quindi l'indipendenza tra le osservazioni è ragionevole.

library(statsr)

g<- gss %>%
  filter(!is.na(sex),!is.na(degree))

inference(y = sex, x = degree, data = g, statistic = "proportion", type = "ht", 
          alternative = "greater", method = "theoretical")
Response variable: categorical (2 levels) 
Explanatory variable: categorical (5 levels) 
Observed:
                y
x                 Male Female
  Lt High School  5153   6669
  High School    12340  16947
  Junior College  1272   1798
  Bachelor        3822   4180
  Graduate        2091   1779
Expected:
               y
x                     Male    Female
  Lt High School  5204.962  6617.038
  High School    12894.410 16392.590
  Junior College  1351.652  1718.348
  Bachelor        3523.101  4478.899
  Graduate        1703.874  2166.126
H0: degree and sex are independent
HA: degree and sex are dependent
chi_sq = 254.3489, df = 4, p_value = 0


Dal momento che p-value = 0 <0,05, rifiutiamo l'ipotesi nulla. Vi è una forte evidenza che esiste una dipendenza tra il livello di istruzione superiore e il sesso negli Stati Uniti.

Note[modifica | modifica wikitesto]

  1. ^ Paolo Baldi, Calcolo delle probabilità e statistica, 2ª ed., McGraw-Hill, 1998, ISBN 9788838607370.
  2. ^ Murray R.Spiegel, STATISTICA - 2ª edizione, collana SCHAUM - ETAS LIBRI.

Voci correlate[modifica | modifica wikitesto]

Collegamenti esterni[modifica | modifica wikitesto]

Controllo di autoritàLCCN (ENsh85023209
Statistica Portale Statistica: accedi alle voci di Wikipedia che trattano di statistica