Deviazione standard

Da Wikipedia, l'enciclopedia libera.
(Reindirizzamento da Standard deviation)

La deviazione standard, scarto tipo[1] o scarto quadratico medio è un indice di dispersione, vale a dire una stima della variabilità di una popolazione di dati o di una variabile casuale. La deviazione standard è uno dei modi per esprimere la dispersione dei dati intorno ad un indice di posizione, quale può essere, ad esempio, la media aritmetica o una sua stima. La deviazione standard ha pertanto la stessa unità di misura dei valori osservati (al contrario della varianza che ha come unità di misura il quadrato dell'unità di misura dei valori di riferimento). In statistica la precisione si può esprimere come deviazione standard.

Una serie di dati con una media di 50 (in blu) e una deviazione standard (σ) di 20.

Il termine "standard deviation" è stato introdotto in statistica da Pearson[2] assieme alla lettera greca \sigma che lo rappresenta. Il termine italiano "deviazione standard" ne è la traduzione più utilizzata nel linguaggio comune; il termine dell'Ente Nazionale Italiano di Unificazione è tuttavia "scarto tipo", definito come la radice quadrata positiva della varianza per lo meno fin dal 1984[3].

Se non indicato diversamente, la deviazione standard è la radice quadrata della varianza, la quale viene coerentemente rappresentata con il quadrato di sigma (\sigma^2).

Statistica[modifica | modifica wikitesto]

In statistica la deviazione standard di una carattere rilevato su una popolazione di N unità statistiche si definisce esplicitamente come

\sigma_X = \sqrt{\frac{\sum_{i=1}^{N} (x_i-\bar{x})^2}{N}},

dove \bar{x} = \frac{1}{N}\sum_{i=1}^{N} x_i è la media aritmetica di X.

Formalmente la deviazione standard di una variabile può essere calcolata a partire dalla funzione generatrice dei momenti, in particolare è la radice quadrata della differenza tra il momento secondo ed il momento primo elevato al quadrato.

A partire dallo scarto tipo si definisce anche il coefficiente di variazione[4] o la deviazione standard relativa come il rapporto tra lo scarto tipo \sigma_X e il valore assoluto della media aritmetica della variabile in esame:

\sigma^*_X=\frac{\sigma_X}{|\bar{x}|}.

Questo indice relativo (che viene spesso espresso in termini percentuali[5]) consente di effettuare confronti tra dispersioni di dati di tipo diverso, indipendentemente dalle loro quantità assolute.

Deviazione standard corretta[modifica | modifica wikitesto]

Nell'ambito della statistica inferenziale (dove è noto solo un campione della popolazione), soprattutto nell'ambito della teoria della stima, a volte si rimpiazza il denominatore N con N-1 ottenendo:

\bar{s}_X = \sqrt{\frac{\sum_{i=1}^{N} (x_i-\bar{x})^2}{N-1}}.

Sostanzialmente, poiché non è nota la media dell'intera popolazione, ma solo una sua stima (la media del campione), bisogna utilizzare N-1 per ottenere uno stimatore corretto \bar{s}^2_X della varianza incognita \sigma_X di X sull'intera popolazione a partire dai dati del campione. La sua radice quadrata diviene la deviazione standard "corretta".

Questa correzione al denominatore fa sì che la nuova definizione sia un po' più grande della precedente, correggendo così la tendenza della precedente a sottostimare le incertezze soprattutto nel caso in cui si lavori con pochi dati (N piccolo).

Osserviamo il caso limite di N=1, cioè quando si ha un campione di un solo elemento: la prima definizione dà il risultato, questo ovviamente non è molto ragionevole nell'ambito della statistica inferenziale, quindi s_X=0, mentre quella "corretta" dà un risultato non definito del tipo \bar{s}_X=\frac{0}{0}, rispecchiando così la totale ignoranza inerente all'incertezza su una singola misura. In questo senso, si dice che la statistica non dice nulla sul singolo caso.

Peraltro la differenza tra le due definizioni è spesso numericamente insignificante.

Semplificando la formula[modifica | modifica wikitesto]

Il calcolo può essere semplificato come segue:

\begin{align}
\sum_{i=1}^N (x_i - \bar{x})^2 & = {} \sum_{i=1}^N (x_i^2 - 2 x_i\bar{x} + \bar{x}^2) \\
& {} = \left(\sum_{i=1}^N x_i^2\right) - \left(2 \bar{x}\sum_{i=1}^N x_i\right) + N\bar{x}^2 \\
& {} = \left(\sum_{i=1}^N x_i^2\right) - 2 \bar{x}(N\bar{x}) + N\bar{x}^2 \\
& {} = \left(\sum_{i=1}^N x_i^2\right) - 2N\bar{x}^2 + N\bar{x}^2 \\
& {} = \left(\sum_{i=1}^N x_i^2\right) - N\bar{x}^2.
\end{align}

cioè, applicando il tutto alla formula originale:


\sigma_X = \sqrt{\frac{1}{N} \left(\sum_{i=1}^N x_i^2 - N\bar{x}^2\right)} = \sqrt{\frac{1}{N} \sum_{i=1}^N x_i^2 - \bar{x}^2}.

Probabilità[modifica | modifica wikitesto]

Sia X una variabile aleatoria, la deviazione standard è definita come la radice quadrata della varianza di X

\sigma_X = \sqrt{\sigma_X^2}.

Formalmente la deviazione standard di una variabile aleatoria può essere calcolata a partire dalla funzione generatrice dei momenti, in particolare è la radice quadrata della differenza tra il momento secondo ed il momento primo elevato al quadrato, cioè

 \sigma_X =\sqrt{ \mathbb{E}[x^2] - (\mathbb{E}[x])^2 },

dove \mathbb{E}[X] è il valore atteso di X.

Applicazioni[modifica | modifica wikitesto]

In ambito finanziario, lo scarto tipo viene usato per indicare la variabilità di un'attività finanziaria e dei suoi payoff (rendimenti). Esso fornisce quindi, implicitamente, una misura della volatilità dell'attività, quindi del suo rischio.

Nell'ambito del Capital Asset Pricing Model, fornendo un'idea della misura di rischio, esso determina univocamente il prezzo sul mercato.[è sbagliato parlare di prezzo determinato dalla deviazione standard. Secondo il CAPM una security con beta negativo o nullo ha un rendimento atteso(quindi un prezzo) inferiore a quello relativo del mercato a prescindere dalla deviazione standard. Il prezzo è quindi una funzione della correlazione con il mercato, non tanto della deviazione standard.]

In fisica, è un ottimo indice dell'errore casuale della misurazione di una grandezza fisica.

In ambito sportivo è utilizzato per valutare la prestazione di un giocatore di bowling in riferimento ad un certo numero di partite. Il valore trovato non incide sul punteggio ma sintetizza le capacità e i miglioramenti del giocatore.

In ingegneria, è uno dei parametri da considerare per valutare la capacità di un processo produttivo.

Nelle applicazioni informatiche, è a volte conveniente utilizzare la formula

\operatorname{\sigma_x} = \frac{1}N \sqrt{N \sum_{i=1}^{N} x_i^2 - \left(\sum_{i=1}^{N}x_i\right)^2 }

che consente, con sole quattro variabili \left(N, x, \ \sum x_i,\ \sum x_i^2\right), di calcolare la deviazione standard (oltre che la media) di un flusso di numeri di lunghezza imprecisata, senza dover ricorrere ad una memorizzazione degli stessi.

Note[modifica | modifica wikitesto]

  1. ^ UNI Norma italiana UNI ISO 3534-1:2000, Statistica - Vocabolario e simboli, Probabilità e termini statistici generali. Milano: UNI, 2000, definizione 1.23.
  2. ^ Karl Pearson, On the dissection of asymmetrical frequency curves, 1894
  3. ^ UNI, Norma italiana UNI 4723:1984, Metodi statistici per il controllo della qualità. Termini, simboli e definizioni. Milano: UNI, 1984. sostituita dalla norma citata UNI ISO 3534-1 nel febbraio 2000.
  4. ^ UNI, Norma italiana UNI ISO 3534-1:2000, Statistica - Vocabolario e simboli, Probabilità e termini statistici generali. Milano: UNI, 2000, definizione 1.24 e 2.35.
  5. ^ Domenico Piccolo, Statistica, Il Mulino, Bologna, 1998, p. 123.

Voci correlate[modifica | modifica wikitesto]

Altri progetti[modifica | modifica wikitesto]

Collegamenti esterni[modifica | modifica wikitesto]