Winsorizzazione

Da Wikipedia, l'enciclopedia libera.
Vai alla navigazione Vai alla ricerca

La winsorizzazione è una procedura statistica per la modifica artificiosa della distribuzione campionaria di variabili aleatorie. Essa consiste nella rimozione degli outliers, cioè di quei valori estremi, o "anomali", che si discostano notevolmente dai valori centrali della distribuzione. Gli outliers sono indesiderati nelle analisi empiriche poiché hanno un impatto sulla stima dei parametri di regressione, causando una minore stabilità degli stessi.

La procedura per winsorizzare i dati è la seguente:

  • identificazione a priori di una soglia, i dati al di là della quale sono considerati outliers;
  • la soglia viene identificata con il valore definito come: t = mediana +/- z*(scarto interquartile), dove "z" è il valore critico della distribuzione normale (generalmente 2, 2.5 o 3);
  • mediana e scarto interquartile sono preferibili rispettivamente a media e deviazione standard, in quanto meno influenzabili dai valori anomali;
  • winsorizzazione vera e propria: le osservazioni maggiori di t e minori di -t vengono sostituite rispettivamente con t e -t.

La procedura prende il nome dall'ingegnere Charles P. Winsor (1895-1951).

Voci correlate[modifica | modifica wikitesto]

Collegamenti esterni[modifica | modifica wikitesto]

  Portale Statistica: accedi alle voci di Wikipedia che trattano di statistica