Outlier

Da Wikipedia, l'enciclopedia libera.

Outlier è un termine utilizzato in statistica per definire, in un insieme di osservazioni, un valore anomalo e aberrante; un valore quindi chiaramente distante dalle altre osservazioni disponibili.[1]

In statistica viene definito outlier un valore al di fuori dall'intervallo:

 \big[ Q_1 - k (Q_3 - Q_1 ) , Q_3 + k (Q_3 - Q_1 ) \big] [2]

Dove Q_1 e Q_3 sono rispettivamente primo e terzo quartile. k è una costante che regola l'ampiezza dell'intervallo. Normalmente assume il valore unitario.

Gli outlier sono valori numericamente distanti dal resto dei dati raccolti (ad esempio, in un campionamento). Le statistiche che derivano da campioni contenenti outlier possono essere fuorvianti. Per esempio, se misurassimo la temperatura di dieci oggetti presenti in una stanza, la maggior parte dei quali risultasse avere una temperatura compresa fra 20 e 25 gradi Celsius, allora il forno acceso, avente una temperatura di 350 gradi, sarebbe un dato aberrante. La mediana dei valori sarebbe circa 23, mentre la temperatura media salirebbe a circa 55 gradi: un indice chiaramente non rappresentativo della maggioranza dei valori di temperatura riscontrati nella stanza. In questo caso, la mediana rifletterebbe meglio della media aritmetica le misure della temperatura degli oggetti. Gli outliers possono essere indicativi del fatto che, in un dato campione, alcuni dati appartengono ad una popolazione differente rispetto a quella del resto del campione.

Nella maggioranza dei grandi campioni, alcuni dati saranno più lontani dalla media del campione di quanto sarebbe logico aspettarsi. Ciò può essere dovuto ad un errore sistematico che si è verificato nella raccolta dei dati, oppure a una fallacia nella teoria che ha orientato l'assunzione di una data distribuzione campionaria di probabilità, ma potrebbe anche essere semplicemente dovuto al caso, che ha fatto sì che nella raccolta dei dati alcune osservazioni abbiano prodotto dati molto lontani dai valori medi del campione. Inoltre, gli outliers potrebbero essere indicativi di dati errati, procedure erronee o aree sperimentali in cui alcune teorie potrebbero non essere valide. Tuttavia, un piccolo numero di dati aberranti non dovuti a condizioni anomale è dato per scontato nei grandi campioni.

Stimatori poco influenzati dai dati aberranti sono detti robusti.

Note[modifica | modifica wikitesto]

  1. ^ Gli statistici italiani preferiscono tradizionalmente parlare di 'dati anomali' o 'aberranti'. Il significato è il medesimo.
  2. ^ Libro statistica - Paul Newbold

Voci correlate[modifica | modifica wikitesto]