Sondaggio (statistica)

Da Wikipedia, l'enciclopedia libera.

Il sondaggio è un metodo statistico volto a valutare le proporzioni di diverse caratteristiche di una popolazione a partire dallo studio di una parte della popolazione, chiamata campione. Le proporzioni sono determinate con dei margini di errore, soggetti ad attenti studi per verificarne la veridicità.

Teoria[modifica | modifica sorgente]

Sia un campione aleatorio di grandezza  n e    \bar x   la media. Il teorema del limite centrale dice che se  n è grande allora  \bar x segue approssimativamente una distribuzione normale con media  \mu (la media della popolazione) e varianza    \frac{\sigma^2}{n}  dove    \sigma^2   è la varianza degli elementi della popolazione[1] (e  \sigma la sua deviazione standard). L’intervallo di confidenza al 95%[2] è    \bar x \pm 1.96 \;\frac{\sigma}{\sqrt{n}}  . Questo intervallo può essere calcolato se si conosce  \sigma^2 . Lo stimatore senza bias è    \hat \sigma^2 = \frac{n s^2}{n-1}   dove  s^2 è la varianza degli elementi del campione e  s la sua deviazione standard[3] . L’intervallo di confidenza diventa allora    \bar x \pm 1.96 \; \frac{s}{\sqrt{n-1}}  .

Si  n è piccolo e la popolazione segue una legge normale allora l’intervallo di confidenza si ottiene utilizzando la distribuzione di Student.

Esempio[modifica | modifica sorgente]

Si desidera calcolare il contenuto medio di vitamina C nelle arance rosse. L’analisi di un campione aleatorio di 100 arance rivela un contenuto medio di 60 mg (per 100 g di frutto) con una deviazione standard di 5 mg. L’intervallo di confidenza al 95% è allora:

 60 \pm 1.96 \; \frac{5}{\sqrt{99}}  = \left \{ \begin{matrix} 60 + 1.96 \; \frac{5}{\sqrt{99}} = 60.98 \\ 60 - 1.96 \; \frac{5}{\sqrt{99}} = 59.02 \end{matrix} \right.

Si può concludere che, con una confidenza del 95%, il contenuto medio di vitamina C si trova tra 59.02 mg e 60.98 mg.

Un’analisi di 100 arance può costare troppo cara. Se si prendono solo 10 arance e si suppone che la distribuzione della vitamina C segue una legge di Student allora l’intervallo di confidenza è:

 60 \pm 2.228 \; \frac{5}{\sqrt{9}}  = \left \{ \begin{matrix} 60 + 2.228 \; \frac{5}{\sqrt{9}} = 63.71 \\ 60 - 2.228 \; \frac{5}{\sqrt{9}} = 56.29 \end{matrix} \right.

Bibliografia[modifica | modifica sorgente]

  • A.M. Mood, F.A. Graybill, D.C. Boes, Introduzione alla statistica, Mc Graw-Hill Italia, 1991

Voci correlate[modifica | modifica sorgente]

Altri progetti[modifica | modifica sorgente]

Note[modifica | modifica sorgente]

  1. ^ In statistica la popolazione è la totalità degli elementi che si desiderano conoscere.
  2. ^ Un intervallo di confidenza al 95% è da interpretare nel seguente modo. Se si effettuano simultaneamente 100 sondaggi sul medesimo tema si possono calcolare 100 intervalli di confidenza. La proporzione della popolazione si trova in 95 di questi intervalli e in 5 è all’esterno. La fiducia è del 95%.
  3. ^ s^2 potrebbe anche designare la varianza campionaria, cioè lo stimatore senza bias della varianza della popolazione. Se  s_c^2   è la varianza campionaria, si ha:    s_c^2 =\frac{n s^2}{n-1}   .