Test di verifica d'ipotesi

Da Wikipedia, l'enciclopedia libera.

Il test di verifica d'ipotesi si utilizza per verificare la bontà di un'ipotesi.

Per ipotesi è da intendersi un'affermazione che ha come oggetto accadimenti nel mondo reale, che si presta ad essere confermata o smentita dai dati osservati sperimentalmente.

Il metodo con cui si valuta l'attendibilità di un'ipotesi è il metodo sperimentale. Quest'ultimo consiste nel determinare le conseguenze di un'ipotesi in termini di eventi osservabili, e di valutare se la realtà effettivamente osservata si accorda o meno con l'ipotesi su di essa fatta.
A tal riguardo si distinguono due ambiti in cui tale attività si esplica:

  1. deterministico;
  2. statistico.

Nell'ambito statistico, a seconda delle ipotesi si distingue tra:

L'ambito deterministico[modifica | modifica wikitesto]

Nel primo caso, si è in grado di pervenire a conclusioni certe. Ad esempio volendo provare se in un circuito elettrico passa corrente si inserirà una lampadina o un amperometro e si constaterà l'accensione o l'attivazione dello strumento. In tal caso si perviene con certezza alla conclusione. Se la lampadina si accende allora passa corrente; in caso contrario il circuito non è predisposto correttamente.

In questo ambito, se nel circuito passa corrente ogni volta che si inserisce una lampadina questa si accende. In caso contrario il ripetuto inserimento della lampadina darà sempre esito negativo.

L'ambito statistico[modifica | modifica wikitesto]

Nel secondo caso la situazione è modificata in quanto interviene un elemento nuovo, ovvero il caso. Si supponga di avere una moneta recante due facce contrassegnate con testa e croce. Volendo verificare l'ipotesi di bilanciamento della moneta si eseguono 20 lanci e si contano quelli che danno esito testa. La conseguenza del bilanciamento consiste nell'osservare un valore di teste attorno a 10. Tuttavia anche in ipotesi di bilanciamento non si può escludere di osservare 20 teste. D'altronde, l'ipotesi di bilanciamento è logicamente compatibile con un numero di teste variante da 0 a 20. In tale contesto una qualsiasi decisione in merito all'ipotesi da verificare comporta un rischio di errore. Ad esempio rigettare l'ipotesi di bilanciamento della moneta avendo osservato 20 teste su 20 lanci comporta il rischio di prendere una decisione errata. Nel procedere alla verifica dell'ipotesi di bilanciamento della moneta, si ricorre a una variabile casuale X. Tale variabile casuale X è una variabile aleatoria discreta con distribuzione binomiale B(20; 0,5), dove 20 indica il numero di lanci e 0,5 la probabilità che si verifichi l'evento "testa".

Il risultato sperimentale si deve quindi confrontare con tale distribuzione: quanto è distante tale risultato dal valore medio della distribuzione B(20; 0,5)? Per rispondere alla domanda si deve individuare un valore caratteristico della distribuzione B(20; 0,5). Nel nostro caso tale valore caratteristico è il valore medio 20/2 = 10. Per valutare la distanza tra il valore sperimentale e quello atteso si valuta la probabilità di ottenere un valore sperimentale lontano dal valore medio di B(20; 0,5), ossìa nel caso che dal nostro esperimento risulti X=15 (15 teste dopo 20 lanci), si calcola P{|X-10|>=15-10} quindi P{X<=5 oppure X>=15}=0,041.

Quindi, usando una moneta ben bilanciata, la probabilità di ottenere un numero di teste X >= 15 (oppure X <= 5) dopo 20 lanci è pari a 0,041 ossia al 4,1%. Giudicando bassa tale probabilità si rifiuterà l'ipotesi di bilanciamento della moneta in esame, accettando quindi il rischio del 4,1% di compiere un errore nel rifiutarla. Di solito, il valore della probabilità adottato per rifiutare l'ipotesi nulla è < 0,05. Tale valore è detto livello di significatività ed è definibile come segue: il livello di significatività sotto l'ipotesi nulla è la probabilità di cadere nella zona di rifiuto quando l'ipotesi nulla è vera. Tale livello di significatività si indica convenzionalmente con α. Il livello di significatività osservato α del test per il quale si rifiuterebbe l'ipotesi nulla è detto valore-p (p-value). Riprendendo l'esempio sopra riportato il valore-p è pari a 0,041. Adottando nell'esempio α = 0,05, si rifiuterà l'ipotesi se P{|X-10|>=x}<0,05. Tale condizione si raggiunge appunto se X<6 oppure X>14. Tale insieme di valori si definisce convenzionalmente come regione di rifiuto. Viceversa l'insieme { 6,7…14} si definisce regione di accettazione. In questo modo si è costruita una regola di comportamento per verificare l'ipotesi di bilanciamento della moneta. Tale regola definisce il test statistico.

In termini tecnici l'ipotesi da verificare si chiama ipotesi nulla e si indica con H0, mentre l'ipotesi alternativa con H1. Nel caso della moneta, se p è la probabilità di ottenere testa in un lancio la verifica di ipotesi si traduce nel seguente sistema:

H_0: p = \frac{1}{2}
H_1: p \ne \frac{1}{2}

Come già osservato, il modo di condurre un test statistico comporta un rischio di errore. Nella pratica statistica si individuano due tipi di errori:

  1. rifiutare H0 quando è vera, errore di primo tipo (α) (o errore di prima specie);
  2. non rifiutare H0 quando è falsa, errore di secondo tipo (β) (o errore di seconda specie).

Tornando all'esempio della moneta in cui la regione di accettazione è data dall'insieme di valori {6..14}, la probabilità di rifiutare H0 quando è vera è stato calcolato pari a 0,041.Tale probabilità rappresenta il rischio di incorrere in un errore di primo tipo e si indica con α. Per valutare la probabilità di un errore di secondo tipo è necessario specificare un valore di p in caso di verità di H1. Si supponga che p=0,80, in tal caso la distribuzione di X è una B(20;0,80)

Con tale distribuzione di probabilità, l'errore di tipo 2 si calcola sommando le probabilità relative ai valori di X della zona di accettazione, ciò supponendo H1 vera. Si trova quindi che la probabilità cercata è pari a circa 0,20. Tale probabilità quantifica il rischio di incorrere nell'errore di tipo 2. e si indica convenzionalmente con β. La quantità 1-β si chiama potenza del test ed esprime quindi la capacità di un test statistico di riconoscere la falsità di H0 quando questa è effettivamente falsa. La potenza del test trova applicazione nella pratica statistica in fase di pianificazione di un esperimento.

Voci correlate[modifica | modifica wikitesto]