Deviazione standard

Da Wikipedia, l'enciclopedia libera.

La deviazione standard (in inglese: standard deviation) o scarto tipo[1] o scarto quadratico medio è un indice di dispersione (vale a dire una misura di variabilità di una popolazione o di una variabile casuale) derivato direttamente dalla varianza, ha la stessa unità di misura dei valori osservati (mentre la varianza ha come unità di misura il quadrato dell'unità di misura dei valori di riferimento). La deviazione standard misura la dispersione dei dati intorno al valore atteso.

Un data set con una media di 50 (in blu) e una deviazione standard (σ) di 20.

Il termine "standard deviation" è stato introdotto in statistica da Pearson[2] assieme alla lettera greca σ che lo rappresenta. Il termine italiano "deviazione standard" ne è la traduzione più utilizzata nel linguaggio comune; il termine dell'Ente Nazionale Italiano di Unificazione è tuttavia "scarto" tipo, definito come la radice quadrata positiva della varianza per lo meno fin dal 1984[3]

Se non indicato diversamente, è semplicemente la radice quadrata della varianza, la quale viene coerentemente rappresentata con il quadrato di sigma (σ²).

\operatorname{\sigma_x} = \sqrt{\frac{\sum_{i=1}^{n} (x_i-\overline x)^2}{n}}

dove \overline x = \frac{1}{n}\sum_{i=1}^{n} x_i è la media aritmetica.

Formalmente lo scarto tipo di una variabile casuale può essere calcolato a partire dalla funzione generatrice dei momenti (radice quadrata della differenza tra il momento secondo ed il momento primo elevato al quadrato).

A partire dallo scarto tipo si definisce anche il coefficiente di variazione[4] o la deviazione standard relativa come il rapporto tra lo scarto tipo σx e la media aritmetica dei valori:

\mbox{RSD}=\sigma_r={\sigma_x \over \overline x}

Questo nuovo parametro (spesso usato in forma percentuale, cioè come = %RSD = σ% = 100σr) consente di effettuare confronti tra dispersioni di dati di tipo diverso, indipendentemente dalle loro quantità assolute.

Esistono argomenti teorici, soprattutto nell'ambito della teoria della stima ovvero nell'ambito della statistica inferenziale (dove è noto solo un campione della popolazione), per rimpiazzare il fattore 1 / n con 1 / (n − 1) nella definizione, ottenendo come nuova definizione:

\operatorname{\sigma_x} = \sqrt{\frac{\sum_{i=1}^{n} (x_i-\overline x)^2}{n-1}}

Sostanzialmente, poiché non è nota la media dell'intera popolazione, ma solo una sua stima (la media del campione), bisogna utilizzare n - 1 per ottenere uno stimatore corretto.

Questa correzione al denominatore fa sì che la nuova definizione sia un po' più grande della precedente, correggendo così la tendenza della precedente a sottostimare le incertezze soprattutto nel caso in cui si lavori con pochi dati (n piccolo).

Osserviamo il caso limite di n = 1, cioè quando effettuiamo una sola misura: la prima definizione dà il risultato, sensato nell'ambito della statistica descrittiva ma non molto ragionevole nell'ambito della inferenziale, σ = 0, mentre la nuova dà un risultato non definito del tipo 0 / 0, rispecchiando così la totale ignoranza inerente all'incertezza su una singola misura. In questo senso, si dice che la statistica non dice nulla sul singolo caso.

Peraltro la differenza tra le due definizioni è quasi sempre numericamente insignificante: già nel caso di dieci misure la differenza tra σ = 0.316 e σ = 0.301 è insignificante per la maggior parte degli scopi.

Indice

[modifica] Semplificando la formula

il calcolo può essere semplificato come segue:

\begin{align}
\sum_{i=1}^N (x_i - \overline{x})^2 & = {} \sum_{i=1}^N (x_i^2 - 2 x_i\overline{x} + \overline{x}^2) \\
& {} = \left(\sum_{i=1}^N x_i^2\right) - \left(2 \overline{x} \sum_{i=1}^N x_i\right) + N\overline{x}^2 \\
& {} = \left(\sum_{i=1}^N x_i^2\right) - 2 \overline{x} (N\overline{x}) + N\overline{x}^2 \\
& {} = \left(\sum_{i=1}^N x_i^2\right) - 2N\overline{x}^2 + N\overline{x}^2 \\
& {} = \left(\sum_{i=1}^N x_i^2\right) - N\overline{x}^2.
\end{align}

cioè, applicando il tutto alla formula originale:


\sigma = \sqrt{\frac{1}{N} \left(\left(\sum_{i=1}^N x_i^2\right) - N\overline{x}^2\right)} = \sqrt{\frac{1}{N} \left(\sum_{i=1}^N x_i^2\right) - \overline{x}^2}.

[modifica] Applicazioni

In ambito finanziario, lo scarto tipo viene usato per indicare la variabilità di un'attività finanziaria e dei suoi payoff (rendimenti). Esso fornisce quindi, implicitamente, una misura della volatilità dell'attività, quindi del suo rischio.

Nell'ambito del Capital Asset Pricing Model, fornendo un'idea della misura di rischio, esso determina univocamente il prezzo sul mercato.

In fisica, è un ottimo indice dell'errore casuale della misurazione di una grandezza fisica.

[modifica] Uso informatico

Per agevolare l'uso da parte di calcolatori, si può utilizzare anche la seguente forma, ottenuta esplodendo la precedente:

\operatorname{\sigma_x} = \sqrt{\frac{\sum_{i=1}^{N} (t_i^2)} N - (\overline t)^2}

In questo modo, con sole tre variabili (n, somma di t_i^2, somma di ti) possiamo calcolare media e σ di un flusso di lunghezza imprecisata di numeri, senza dover ricorrere ad una memorizzazione degli stessi.

[modifica] Note

  1. ^ UNI, Norma italiana UNI ISO 3534-1:2000, Statistica - Vocabolario e simboli, Probabilità e termini statistici generali. Milano : UNI, 2000, definizione 1.23.
  2. ^ Karl Pearson, On the dissection of asymmetrical frequency curves, 1894
  3. ^ UNI, Norma italiana UNI 4723:1984, Metodi statistici per il controllo della qualità. Termini, simboli e definizioni. Milano : UNI, 1984. sostituita dalla norma citata UNI ISO 3534-1 nel febbraio 2000.
  4. ^ UNI, Norma italiana UNI ISO 3534-1:2000, Statistica - Vocabolario e simboli, Probabilità e termini statistici generali. Milano : UNI, 2000, definizione 1.24 e 2.35.

[modifica] Voci correlate

Strumenti personali