Bias (statistica)

Da Wikipedia, l'enciclopedia libera.

In statistica, i termini bias (etimologia incerta[1]), distorsione o scostamento sono usati con riferimento a due concetti. Un campione distorto è un campione statistico in cui la probabilità di inclusione nel campione di individui appartenenti alla popolazione dipende dalle caratteristiche della popolazione oggetto di studio. Uno stimatore distorto è uno stimatore che per qualche ragione ha valore atteso diverso dalla quantità che stima; uno stimatore non distorto è detto stimatore corretto.

Se da un lato il termine distorsione può avere una connotazione negativa, ciò non è necessariamente vero nel contesto della statistica. Un campione distorto è in generale non desiderabile; d'altra parte, uno stimatore distorto può essere desiderabile a seconda delle applicazioni.

Campione distorto[modifica | modifica wikitesto]

Un campione è distorto se la probabilità che un membro della popolazione sia incluso nel campione dipende dalle caratteristiche oggetto dell'inferenza. Un campione distorto fornisce, in generale, una stima falsata delle caratteristiche della popolazione oggetto dell'inferenza. Se, ad esempio, per una popolazione di individui la probabilità di essere inclusi nel campione è più piccola quanto minore è il reddito dell'individuo, il reddito medio campionario risulterà mediamente più alto del reddito medio della popolazione.

Un celebre esempio di inferenza falsata per via di un campione distorto si ha relativamente alle elezioni presidenziali statunitensi del 1936, in cui si contrapponevano Alfred M. Landon e Franklin Delano Roosevelt. Il Literary Digest fece un sondaggio intervistando 2 000 000 di persone secondo il quale il primo avrebbe dovuto vincere le elezioni (ottenne il 57% delle preferenze nel campione). George Gallup ottenne risultati opposti con un campione molto più piccolo (300 000 unità). Alla fine, si verificò il risultato previsto da Gallup. L'errore del Literary Digest nacque dal fatto che il campione venne selezionato usando gli elenchi degli abbonati telefonici e dei proprietari di automobili, all'epoca beni poco diffusi. Questo fece sì che nel campione entrassero prevalentemente cittadini benestanti, ossia che la percentuale di cittadini benestanti presenti nel campione fosse maggiore di quella di cittadini benestanti nella popolazione. Questa circostanza produsse risultati distorti poiché la percentuale di votanti per Roosevelt era maggiore tra le classi meno abbienti, il cui contributo era sottostimato dal Literary Digest, sicché la probabilità di inclusione nel campione dipendeva di fatto dalla caratteristica oggetto di studio.

Questo tipo di errore in un'analisi statistica è anche detto errore non campionario, per distinguerlo dall'errore campionario. Quest'ultimo è connaturato al tipo di problema che si affronta (desumere le caratteristiche di un aggregato attraverso l'osservazione di una parte di esso) ed è tenuto sotto controllo in quanto risponde alle regole del calcolo delle probabilità (non possiamo quantificarlo ma possiamo valutarne la distribuzione di probabilità) e può essere ridotto aumentando la numerosità del campione. Dell'errore non campionario, invece, non sappiamo nulla neanche in termini probabilistici, e l'incremento di informazione campionaria non serve a ridurlo.

Stimatore distorto[modifica | modifica wikitesto]

Un altro tipo di distorsione in statistica concerne l'uso di statistiche il cui valore atteso è diverso da quello della quantità oggetto di stima. Si supponga di voler stimare il parametro \vartheta tramite uno stimatore \hat{\vartheta} (ossia, una qualche funzione dei dati osservati). La distorsione di \hat{\vartheta} è definita come:


\operatorname{E}(\hat{\vartheta})-\vartheta.

In altri termini l'espressione sopra è il valore atteso dello stimatore \hat{\vartheta} meno il vero valore di \vartheta. Ciò può anche scriversi come:


\operatorname{E}(\hat{\vartheta}-\vartheta).

ossia il valore atteso della differenza tra lo stimatore e il vero valore di \vartheta.

Correttezza asintotica[modifica | modifica wikitesto]

Un requisito meno stringente della correttezza è la correttezza asintotica: non si richiede che lo stimatore \hat{\vartheta}_n basato sul campione X_1,\ldots,X_n abbia valore atteso uguale a \vartheta, ma ci si contenta che il suo valore atteso tenda a \vartheta all'aumentare della dimensione del campione

 \lim_{n \to \infty} E(\hat{\vartheta}_n)=\vartheta

ossia, in altre parole, uno stimatore è asintoticamente corretto se la distorsione tende a zero all'aumentare del campione

 \lim_{n \to \infty} E(\hat{\vartheta}_n-\vartheta)=0

Esempio: stimatore della varianza[modifica | modifica wikitesto]

Si consideri ad esempio un campione X1, ..., Xn di variabili casuali indipendenti e identicamente distribuite, con valore atteso μ e varianza σ². Sia:

\bar{X}=\frac{1}{n}(X_1+\cdots+X_n)

la media campionaria, e:

S^2=\frac{1}{n}\sum_{i=1}^n(X_i-\bar{X}\,)^2

la varianza campionaria. Si può mostrare che S² è uno stimatore distorto per σ²; questo segue dal fatto che:

\operatorname{E}(S^2)=\frac{n-1}{n}\sigma^2\neq\sigma^2.

Se tuttavia il campione è estratto da una popolazione avente distribuzione normale, tale stimatore distorto è, sulla base del criterio - comunemente adottato - dell'errore quadratico medio (MSE, dall'inglese Mean Squared Error) preferibile allo stimatore corretto che si avrebbe sostituendo n − 1 al denominatore, laddove la definizione di S² sopra presentata ha n. Anche allora, ad ogni modo, la radice quadrata dello stimatore corretto per la varianza della popolazione non è uno stimatore corretto della deviazione standard della popolazione; ciò segue banalmente dalla disuguaglianza di Jensen.

Esempio[modifica | modifica wikitesto]

Un caso in cui uno stimatore distorto può risultare preferibile a uno corretto è il seguente. Si supponga che X abbia distribuzione di Poisson con parametro λ. Si vuole stimare:

\operatorname{P}(X=0)^2=e^{-2\lambda}

La sola funzione del campione che fornisce uno stimatore corretto è:

\ \tau(X)=(-1)^X

Se il valore di X osservato è 100, la stima sarà 1, sebbene il vero valore della quantità oggetto di stima sia molto probabilmente prossimo allo 0, all'estremo opposto. Se poi il valore di X osservato è 101, allora la stima è ancora meno plausibile: −1, sebbene la quantità oggetto di stima sia ovviamente positiva. Lo stimatore (distorto) di massima verosimiglianza:

\ \tau'(X)=e^{-2X}

è, infine, preferibile allo stimatore corretto proposto sopra, nel senso che il suo errore quadratico medio (MSE):

e^{-4\lambda}-2e^{\lambda(1/e^2-3)}+e^{\lambda(1/e^4-1)}

è minore; l'errore quadratico medio (MSE) dello stimatore corretto è infatti pari a:

\ 1-e^{-4\lambda}

L'errore quadratico medio è una funzione del vero valore di λ; la distorsione dello stimatore di massima verosimiglianza sarà:

\ e^{-2\lambda}-e^{\lambda(1/e^2-1)}

Distorsione dello stimatore di massima verosimiglianza[modifica | modifica wikitesto]

La distorsione di uno stimatore di massima verosimiglianza può essere anche rilevante. Si consideri il seguente esempio: n biglietti, numerati da 1 a n, sono posti in un'urna, e uno è selezionato in maniera casuale; si denoti con X il valore così osservato. Se n non è noto, lo stimatore di massima verosimiglianza di n è X, sebbene il valore atteso di X sia n/2. Si può soltanto essere sicuri che n è almeno X, e probabilmente è maggiore di X. Si osservi che in questo caso uno stimatore naturale, nonché corretto, per n è 2X − 1.

Sotto ipotesi abbastanza generali, invece, lo stimatore di massima verosimiglianza è asintoticamente corretto!

Note[modifica | modifica wikitesto]

  1. ^ si veda Etimologia di Bias

Voci correlate[modifica | modifica wikitesto]

Collegamenti esterni[modifica | modifica wikitesto]