Intervallo di confidenza

Da Wikipedia, l'enciclopedia libera.
Jump to navigation Jump to search

In statistica, quando si stima un parametro, la semplice individuazione di un singolo valore è spesso non sufficiente. È opportuno allora accompagnare la stima di un parametro con un intervallo di valori plausibili per quel parametro, che viene definito intervallo di confidenza (o intervallo di fiducia).[1]

Se e sono variabili casuali con distribuzioni di probabilità che dipendono da qualche parametro e (dove è un numero tra 0 e 1), allora l'intervallo casuale è un intervallo di confidenza al "[(1-β)*100 ]% per θ". I valori estremi dell'intervallo di confidenza si chiamano limiti di confidenza.

Ad esso si associa quindi un valore di probabilità cumulativa che caratterizza, indirettamente in termini di probabilità, la sua ampiezza rispetto ai valori massimi assumibili dalla variabile aleatoria misurando cioè la probabilità che l'evento casuale descritto dalla variabile aleatoria in oggetto cada all'interno di tale intervallo, graficamente pari all'area sottesa dalla curva di distribuzione di probabilità della variabile aleatoria nell'intervallo considerato.

È bene non confondere l'intervallo di confidenza con la probabilità. Data l'espressione "vi è un livello di confidenza del 95% che sia nell'intervallo", nulla si può dire sulla probabilità che l'intervallo ottenuto contenga [2]

Introduzione[modifica | modifica wikitesto]

Si ipotizzi di voler calcolare l'età media degli abitanti di un luogo. La popolazione non è nota nel senso che non si conosce l'età (la variabile aleatoria) per ogni singolo abitante. Viene allora estratto un campione casuale di abitanti di cui è nota l'età, e dal campione si tenta di inferire ("predire") l'età media per tutta la popolazione residente e la variabilità di tale dato.

L'intervallo di confidenza misura l'attendibilità di una statistica, quali sono: un sondaggio d'opinione, un sondaggio elettorale, un exit pool il giorno delle elezioni.

Se ad esempio il 40% del campione intervistato dichiara di aver votato (o di stare per votare) per un certo partito, si può inferire con un livello di confidenza al 99% che una percentuale compresa fra il 30 e il 50% della popolazione totale dei votati si sarà espressa a favore dello stesso partito; dal solito campione intervistato, con un intervallo di confidenza al 90% si può ipotizzare (inferire) che la percentuale dei voti favorevoli sia ora compresa fra il 37% e il 43%. Come si può vedere, lasciando invariati gli altri fattori, a un intervallo di valori possibili più piccolo, corrisponde anche un minore livello di copertura o di confidenza

La stima puntuale fornisce un valore singolo che varia a seconda del campione, e non coincide mai con il valore vero della popolazione. La stima intervallare fornisce un insieme di valori che ha una certa probabilità di contenere il valore vero della popolazione[3].

Sempre a partire da un campione, l'intervallo di confidenza definisce un insieme di valori (intervallo), i cui estremi contengono la media della popolazione con una probabilità approssimata a (livello di copertura dell'intervallo). Con si indica invece la probabilità di errore, la probabilità che i dati campionati provengano da una popolazione con una media che si trova fuori dell'intervallo.

Se è una variabile di media e varianza con si indica la variabile campionaria con media e deviazione standard date da:

dove è la media aritmetica degli dati osservati.

Il livello di confidenza è fissato dal ricercatore. Il valore scelto più di frequente è pari al 95%[4]. Tuttavia, meno di frequente, viene scelto anche un livello di confidenza del 90%, oppure del 99%.

Se il valore di non differisce molto dalla variabilità della popolazione, può essere assunto come suo stimatore (ad esempio con un numero di soggetti osservati e replicazioni complessivamente maggiore di 60 dati; in alternativa si ipotizza una distribuzione t di Student caratterizzata da una maggiore dispersione rispetto alla normale standard)[5]. In questa prima ipotesi, l'intervallo di confidenza per la media μ (vera media, della popolazione[3]) al 99% (al livello ), è dato da:

Al 95% è dato da:

Prima della diffusione dei computer si cercava di utilizzare l’approssimazione normale ogni qualvolta possibile. Adesso non è più strettamente necessario, e nella formula possono essere utilizzati percentili di altre distribuzioni, facendo rifierimento a campioni di dimensione più ridotta)[5].

Dalle formule risulta che i due intervalli di confidenza possono essere scritti in funzione dei soli dati campionari .

Oltre a diminuire con il livello di confidenza, l'ampiezza dell'intervallo dipende dall'errore della stima e diminuisce se:

  • diminuisce la variabilità del campione.
  • aumenta la numerosità del campione (con la seconda potenza): per dimezzare l'ampiezza dell'intervallo, occorre quadruplicare il campione.

Qualora la popolazione non segue il modello gaussiano, se il campione è grande a sufficienza, la variabile campionaria tende a seguire comunque una legge normale (teorema centrale del limite). In altre parole, le due formule precedenti per l'intervallo di confidenza si possono usare anche nel caso in cui non è nota la sua legge di probabilità.

Il livello di confidenza o copertura è il complemento a uno del livello di significatività α: ad esempio, un intervallo di confidenza al 95% corrisponde ad un livello di significatività di 0.05[6].

Interpretazioni errate[modifica | modifica wikitesto]

Gli intervalli di confidenza sono spesso confusi con altri concetti della statistica, e talora oggetto di errate interpretazioni anche da parte di ricercatori professionisti[7][8][9][10]. Alcuni errori comuni:

  • un intervallo di confidenza al 95% non significa che esiste una probabilità del 95% che il parametro della popolazione (es. la percentuale di voti per un partito in tutta Italia) sia compreso nei due estremi dell'intervallo. L'intervallo può "contenere" il valore del parametro, oppure no. Non è una questione di probabilità. Il 95% di confidenza è riferito all'attendibilità del metodo di stima, ma non del particolare intervallo calcolato[11]. Per quanto riguarda la bontà del metodo di stima si possono valutare, quando pertinenti: numerosità e rappresentatività del campione, casualizzazione della modalità di campionamento, controllo preventivo delle ipotesi di indipendenza e di identica distribuzione, assenza di autocorrelazione fra i dati osservati, eliminazione eventuale di unità fuori tolleranza.
  • similmente per il singolo campione, un intervallo di confidenza al 95% non significa che il 95% del valori campionati cada nell'intervallo.
  • se l'intervallo di confidenza è un insieme di valori probabili per l'intera popolazione, ciò non vale per i singoli campione.

Impostazione di Neyman[modifica | modifica wikitesto]

Gli intervalli di confidenza furono introdotti da Jerzy Neyman in un articolo pubblicato nel 1937[12].

C'è un metodo agevole per il calcolo degli intervalli di confidenza attraverso il test di verifica d'ipotesi (secondo l'impostazione di Neyman).

L'intervallo di confidenza (o di fiducia) non sarà che un parametro che si ottiene determinando anzitutto un test (con livello di significatività ) per saggiare l'ipotesi = contro l'ipotesi . L'insieme di tutti i valori per cui si accetterebbe l'ipotesi nulla costituisce un intervallo di confidenza di livello

Un intervallo di confidenza al 95% si può quindi ricavare da un test di verifica d'ipotesi di significatività 5%.

Note[modifica | modifica wikitesto]

  1. ^ Ross, p. 239.
  2. ^ Ross, p. 244.
  3. ^ a b Brevi cenni all’intervallo di confidenza (PDF), su univr.it. URL consultato il 10 maggio 2018.
  4. ^ (EN) J.H. Zar, Biostatistical Analysis., Prentice-Hall International (New Jersey), pp. 43–45.
  5. ^ a b G. Verlato e R. de Marco, Intervallo di confidenza (PDF), su Sezione di Epidemiologia e Statistica Medica, Università di Verona, p. 9. URL consultato il 10 maggio 2018.
  6. ^ (EN) Andy Field, Discovering statistics using SPSS, SAGE, 2013.
  7. ^ [1]
  8. ^ [2]
  9. ^ Hoekstra, R., R. D. Morey, J. N. Rouder, and E-J. Wagenmakers, 2014. Robust misinterpretation of confidence intervals. Psychonomic Bulletin Review, in press. [3]
  10. ^ Scientists’ grasp of confidence intervals doesn’t inspire confidence, Science News, 3 luglio 2014
  11. ^ (EN) 1.3.5.2. Confidence Limits for the Mean, su nist.gov.
  12. ^ (EN) J. Neyman, Outline of a Theory of Statistical Estimation Based on the Classical Theory of Probability, in Philosophical Transactions of the Royal Society of London. Series A, Mathematical and Physical Sciences, vol. 236, nº 767, Royal Society, 30 agosto 1937, pp. 333-380.

Bibliografia[modifica | modifica wikitesto]

  • Sheldon M. Ross, Probabilità e statistica per l'ingegneria e le scienze, Trento, Apogeo, 2003, ISBN 88-7303-897-2.

Altri progetti[modifica | modifica wikitesto]

Collegamenti esterni[modifica | modifica wikitesto]