Deviazione standard

Da Wikipedia, l'enciclopedia libera.
(Reindirizzamento da Standard deviation)

La deviazione standard, scarto tipo[1] o scarto quadratico medio è un indice di dispersione delle misure sperimentali, vale a dire una stima della variabilità di una popolazione di dati o di una variabile casuale. La deviazione standard è uno dei modi per esprimere la dispersione dei dati intorno ad un indice di posizione, quale può essere, ad esempio, il valore atteso o una stima del suddetto valore atteso. La deviazione standard ha pertanto la stessa unità di misura dei valori osservati (al contrario della varianza che ha come unità di misura il quadrato dell'unità di misura dei valori di riferimento). In statistica la precisione si può esprimere come deviazione standard.

Una serie di dati con una media di 50 (in blu) e una deviazione standard (σ) di 20.

Il termine "standard deviation" è stato introdotto in statistica da Pearson[2] assieme alla lettera greca σ che lo rappresenta. Il termine italiano "deviazione standard" ne è la traduzione più utilizzata nel linguaggio comune; il termine dell'Ente Nazionale Italiano di Unificazione è tuttavia "scarto tipo", definito come la radice quadrata positiva della varianza per lo meno fin dal 1984[3].

Se non indicato diversamente, la deviazione standard è semplicemente la radice quadrata della varianza, la quale viene coerentemente rappresentata con il quadrato di sigma (σ²).

\operatorname{\sigma_x} = \sqrt{\frac{\sum_{i=1}^{N} (x_i-\langle x \rangle)^2}{N}}

dove \langle x \rangle = \frac{1}{N}\sum_{i=1}^{N} x_i è semplicemente la media aritmetica.

Formalmente lo scarto tipo di una variabile casuale può essere calcolato a partire dalla funzione generatrice dei momenti (radice quadrata della differenza tra il momento secondo ed il momento primo elevato al quadrato).

A partire dallo scarto tipo si definisce anche il coefficiente di variazione[4] o la deviazione standard relativa come il rapporto tra lo scarto tipo \sigma_x e il modulo della media aritmetica dei valori:

\sigma^*_x={\sigma_x \over |\langle x \rangle|}

Questo indice relativo (che viene spesso espresso in termini percentuali[5]) consente di effettuare confronti tra dispersioni di dati di tipo diverso, indipendentemente dalle loro quantità assolute.

Esistono argomenti teorici, soprattutto nell'ambito della teoria della stima ovvero nell'ambito della statistica inferenziale (dove è noto solo un campione della popolazione), per rimpiazzare il fattore 1/N con 1/(N-1) nella definizione, ottenendo come nuova definizione:

\operatorname{\sigma_x} = \sqrt{\frac{\sum_{i=1}^{N} (x_i-\langle x \rangle )^2}{N-1}}

Sostanzialmente, poiché non è nota la media dell'intera popolazione, ma solo una sua stima (la media del campione), bisogna utilizzare N-1 per ottenere uno stimatore corretto della varianza della popolazione a partire dai dati del campione.

Questa correzione al denominatore fa sì che la nuova definizione sia un po' più grande della precedente, correggendo così la tendenza della precedente a sottostimare le incertezze soprattutto nel caso in cui si lavori con pochi dati (N piccolo).

Osserviamo il caso limite di N=1, cioè quando effettuiamo una sola misura: la prima definizione dà il risultato, sensato nell'ambito della statistica descrittiva ma non molto ragionevole nell'ambito della inferenziale, \sigma=0, mentre la nuova dà un risultato non definito del tipo 0/0, rispecchiando così la totale ignoranza inerente all'incertezza su una singola misura. In questo senso, si dice che la statistica non dice nulla sul singolo caso.

Peraltro la differenza tra le due definizioni è quasi sempre numericamente insignificante: già nel caso di dieci misure la differenza tra \sigma=0.316 e \sigma=0.301 è insignificante per la maggior parte degli scopi.

Semplificando la formula[modifica | modifica sorgente]

Il calcolo può essere semplificato come segue:

\begin{align}
\sum_{i=1}^N (x_i - \langle x \rangle)^2 & = {} \sum_{i=1}^N (x_i^2 - 2 x_i\langle x \rangle + \langle x \rangle^2) \\
& {} = \left(\sum_{i=1}^N x_i^2\right) - \left(2 \langle x \rangle \sum_{i=1}^N x_i\right) + N\langle x \rangle^2 \\
& {} = \left(\sum_{i=1}^N x_i^2\right) - 2 \langle x \rangle (N\langle x \rangle) + N\langle x \rangle^2 \\
& {} = \left(\sum_{i=1}^N x_i^2\right) - 2N\langle x \rangle^2 + N\langle x \rangle^2 \\
& {} = \left(\sum_{i=1}^N x_i^2\right) - N\langle x \rangle^2.
\end{align}

cioè, applicando il tutto alla formula originale:


\sigma = \sqrt{\frac{1}{N} \left(\sum_{i=1}^N x_i^2 - N\langle x \rangle^2\right)} = \sqrt{\frac{1}{N} \sum_{i=1}^N x_i^2 - \langle x \rangle^2}.

Poiché il primo addendo sotto radice può essere visto come il valore atteso degli x quadrati, spesso si scrive:

 \sigma^{2} = \mathbb{E}[x^2] - (\mathbb{E}[x])^2

Applicazioni[modifica | modifica sorgente]

In ambito finanziario, lo scarto tipo viene usato per indicare la variabilità di un'attività finanziaria e dei suoi payoff (rendimenti). Esso fornisce quindi, implicitamente, una misura della volatilità dell'attività, quindi del suo rischio.

Nell'ambito del Capital Asset Pricing Model, fornendo un'idea della misura di rischio, esso determina univocamente il prezzo sul mercato.[6]

In fisica, è un ottimo indice dell'errore casuale della misurazione di una grandezza fisica.

In ambito sportivo è utilizzato per valutare la prestazione di un giocatore di bowling in riferimento ad un certo numero di partite. Il valore trovato non incide sul punteggio ma sintetizza le capacità e i miglioramenti del giocatore.

Applicazioni informatiche[modifica | modifica sorgente]

Nelle applicazioni informatiche, è a volte conveniente utilizzare la formula

\operatorname{\sigma_x} = \frac{1}N \sqrt{N \sum_{i=1}^{N} x_i^2 - \left(\sum_{i=1}^{N}x_i\right)^2 }

che consente, con sole quattro variabili \left(N, x, \ \sum x_i,\ \sum x_i^2\right), di calcolare la deviazione standard (oltre che la media) di un flusso di numeri di lunghezza imprecisata, senza dover ricorrere ad una memorizzazione degli stessi.

Note[modifica | modifica sorgente]

  1. ^ UNI Norma italiana UNI ISO 3534-1:2000, Statistica - Vocabolario e simboli, Probabilità e termini statistici generali. Milano: UNI, 2000, definizione 1.23.
  2. ^ Karl Pearson, On the dissection of asymmetrical frequency curves, 1894
  3. ^ UNI, Norma italiana UNI 4723:1984, Metodi statistici per il controllo della qualità. Termini, simboli e definizioni. Milano: UNI, 1984. sostituita dalla norma citata UNI ISO 3534-1 nel febbraio 2000.
  4. ^ UNI, Norma italiana UNI ISO 3534-1:2000, Statistica - Vocabolario e simboli, Probabilità e termini statistici generali. Milano: UNI, 2000, definizione 1.24 e 2.35.
  5. ^ Domenico Piccolo, Statistica, Il Mulino, Bologna, 1998, p. 123.
  6. ^ è sbagliato parlare di prezzo determinato dalla deviazione standard. Secondo il CAPM una security con beta negativo o nullo ha un rendimento atteso(quindi un prezzo) inferiore a quello relativo del mercato a prescindere dalla deviazione standard. Il prezzo è quindi una funzione della correlazione con il mercato, non tanto della deviazione standard.

Voci correlate[modifica | modifica sorgente]

Altri progetti[modifica | modifica sorgente]

Collegamenti esterni[modifica | modifica sorgente]