Regolarizzazione (matematica)

Da Wikipedia, l'enciclopedia libera.

In matematica e statistica, particolarmente nei campi dell'apprendimento automatico e dei problemi inversi, la regolarizzazione implica l'introduzione di ulteriore informazione allo scopo di risolvere un problema mal condizionato o per prevenire l'overfitting. Tale informazione è solitamente nella forma di una penalità per complessità, tale come una restrizione su una funzione funzione liscia o una limitazione sulla norma di uno spazio vettoriale.

Una giustificazione teorica per la regolarizzazione è quella per cui essa costituisce un tentativo di imporre il rasoio di Occam alla soluzione. Da un punto di vista bayesiano, molte tecniche di regolarizzazione corrispondono a imporre certe distribuzioni di probabilità a priori dei parametri del modello.

La medesima idea sorge in molti campi della scienza. Per esempio, il metodo dei minimi quadrati può essere visto come un forma veramente semplice di regolarizzazione. Una semplice forma di regolarizzazione applicata alle equazioni integrali, generalmente detta regolarizzazione di Tichonov dal nome di Andrey Nikolayevich Tikhonov, è costituita essenzialmente da un bilanciamento tra la regressione dei dati e una norma dipendente dalla soluzione. Più recentemente, sono divenuti diffusi metodi di regolarizzazione non lineare, inclusa la regolarizzazione a variazione totale (total variation regularization).

Regolarizzazione in statistica[modifica | modifica sorgente]

In statistica e in apprendimento automatico, la regolarizzazione è utilizzata per prevenire l'overfitting. Tra i tipici esempi di regolarizzazione nell'apprendimento automatico statistico, vi sono la regolarizzazione di Tichonov, il cosiddetto metodo dei minimi quadrati LASSO (Least Absolute Shrinkage and Selection Operator), e la norma L2 nelle macchine a vettori di supporto.

I metodi di regolarizzazione sono impiegati anche per la selezione di modelli, dove il loro funzionamento è basato sull'implicita o esplicita penalizzazione del numero di parametri del modello. Per esempio, i metodi di apprendimento bayesiano fanno uso di una probabilità a priori che (solitamente) attribuisce un valore di probabilità inferiore ai modelli più complessi. Tra le tecniche ben note di selezione vi sono il criterio informativo di Akaike (Akaike information criterion, AIC), la lunghezza di descrizione minimale (minimum description length, MDL), e il criterio informativo bayesiano (bayesian information criterion, BIC). Tra i metodi alternativi per controllare l'overfitting, che coinvolgono la regolarizzazione, vi sono la Cross-validazione.

Esempi di metodi differenti di regolarizzazione applicati al modello lineare sono:

Modello Misura del fit Misura dell'entropia
AIC/BIC \|Y-X\beta\|_2 \|\beta\|_0
Regressione di Ridge \|Y-X\beta\|_2 \|\beta\|_2
Metodo LASSO[1] \|Y-X\beta\|_2 \|\beta\|_1
Basis pursuit denoising \|Y-X\beta\|_2 \lambda\|\beta\|_1
RLAD[2] \|Y-X\beta\|_1 \|\beta\|_1
Selettore di Dantzig[3] \|X^\top (Y-X\beta)\|_\infty \|\beta\|_1

Note[modifica | modifica sorgente]

  1. ^ Robert Tibshirani, Regression Shrinkage and Selection via the Lasso (PostScript) in Journal of the Royal Statistical Society, Series B (Methodology), vol. 58, nº 1, 1996, pp. 267–288, MR 1379242. URL consultato il 19 marzo 2009.
  2. ^ Li Wang, Michael D. Gordon & Ji Zhu, Regularized Least Absolute Deviations Regression and an Efficient Algorithm for Parameter Tuning, December 2006, pp. 690–700, DOI:10.1109/ICDM.2006.134.
  3. ^ Emmanuel Candes, Tao, Terence, The Dantzig selector: Statistical estimation when p is much larger than n in Annals of Statistics, vol. 35, nº 6, 2007, pp. 2313–2351, arXiv:math/0506081, DOI:10.1214/009053606000001523, MR 2382644.

Riferimenti[modifica | modifica sorgente]