Valore p

Da Wikipedia, l'enciclopedia libera.

In statistica inferenziale il valore p (o p-value, in inglese) di un test di verifica d'ipotesi indica la probabilità di ottenere un risultato uguale o "più estremo" di quello osservato, supposta vera l'ipotesi nulla. Talvolta viene anche chiamato livello di significatività osservato.

Livello di significatività[modifica | modifica wikitesto]

Quando si effettua un test d'ipotesi si fissa un'ipotesi nulla e un valore soglia α (per convenzione di solito 0,05) che indica il livello di significatività del test. Calcolato il p-value relativo ai dati osservati è possibile comportarsi come segue:

  • se p-value > α l'evidenza empirica non è sufficientemente contraria all'ipotesi nulla che quindi non può essere rifiutata;
  • se p-value ≤ α l'evidenza empirica è fortemente contraria all'ipotesi nulla che quindi va rifiutata. I tal caso si dice che i dati osservati sono statisticamente significativi.

Tuttavia se p-value ~ α, cioè è vicino al valore soglia, è necessaria attenzione. Il valore p viene utilizzato per fornire maggiori informazioni su un test rispetto all'accettazione o al rifiuto per un certo livello di significatività. Per questo le analisi statistiche devono sempre riportare il valore del p-value osservato permettendo ai lettori di trarre le proprie conclusioni.

Per condurre un test statistico è importante fissare il livello di significatività (indicato di solito con la lettera greca α, alpha) prima di calcolare il valore p. Se il valore p venisse calcolato per primo, lo sperimentatore saprebbe quali valori per il livello di significatività conducono ad accettare o rigettare l'ipotesi nulla, e potrebbe scegliere il livello in funzione del risultato desiderato.

Definizione[modifica | modifica wikitesto]

Sia H l'ipotesi che il campione x dei dati osservati sia estratto da una certa variabile aleatoria X nota. Ilp-value è definito come la probabilità, supposta l'ipotesi H, di ottenere un risultato (cioè dei dati osservati) uguale o "più estremo" di quello effettivamente osservato. Cosa si intende con "più estremo" precisamente, dipende dal tipo di test che si intende effettuare. Se il test è bilaterale allora i risultati più estremi sono i valori di X per cui \{ X \leq x\} oppure \{ X \geq x \}. Se il test è unilaterale destro allora i risultati più estremi sono i valori di X per cui \{ X \geq x\}. Se il test è unilaterale sinistro allora i risultati più estremi sono i valori di X per cui \{ X \leq x\}. Quindi il p-value è dato da:

  • Pr(X \geq x |H) per test unilaterali destri;
  • Pr(X \leq x |H) per test unilaterali sinistri;
  • 2\min\{Pr(X \leq x |H),Pr(X \geq x |H)\} per test bilaterali.

Più il valore del p-value è piccolo, più è grande la significatività poiché il risultato ci dice che l'ipotesi nulla considerata non spiega adeguatamente i dati osservati.

Esempio[modifica | modifica wikitesto]

Sia, ad esempio, 0,03 il valore p di un test. Il test condotto con un livello di significatività di 0,05 induce allora a rifiutare l'ipotesi nulla, mentre lo stesso test condotto con un rischio di errore di 0,02 induce a non rifiutare l'ipotesi nulla. La conclusione "il valore p è 0,03" contiene più informazioni delle sole "ipotesi rifiutata con significatività 0,05" o "non rifiutata con significatività 0,02".

Errori comuni[modifica | modifica wikitesto]

Ci sono diversi errori comuni riguardanti l'uso del p-value.

  • Il p-value non è la probabilità che l'ipotesi nulla sia vera o la probabilità che l'ipotesi nulla sia falsa. Non è connessa con nessuna delle due.
  • Il p-value non è la probabilità che un'osservazione sia un caso. Il calcolo del p-value è basato sull'ipotesi che ogni osservazione è un caso, un risultato aleatorio. Con la frase il risultato è dovuto al caso si intende di solito che l'ipotesi nulla è probabilmente corretta. Ma ricordiamo che il p-value non può essere usato per rappresentare la probabilità che un'ipotesi sia vera.
  • Il p-value non è la probabilità di rifiutare l'ipotesi nulla quando questa è vera.
  • Il p-value non è la probabilità che replicando l'esperimento si otterrebbe la stessa conclusione. Per quantificare la replicabilità di un esperimento è stato introdotto il concetto di p-rep.
  • Il livello di significatività α non è determinato dal p-value. Il livello di significatività è deciso dalla persona che conduce l'esperimento prima di vedere i dati.

Voci correlate[modifica | modifica wikitesto]

Altri progetti[modifica | modifica wikitesto]