Teoria dell'apprendimento statistico

La teoria dell'apprendimento statistico è il fondamento teorico su cui si basa l'apprendimento automatico.

Attingendo ai campi della statistica e dell'analisi funzionale,^[1] la teoria dell'apprendimento statistico cerca di risolvere il generico problema di trovare una funzione capace di effettuare previsioni basandosi sui dati. Questo campo di studio ha portato ad applicazioni pratiche in campi come la visione artificiale, il riconoscimento vocale e la bioinformatica.

Introduzione[modifica | modifica wikitesto]

Gli obiettivi dell'apprendimento sono la comprensione dei dati presenti e la previsione dei dati futuri. L'apprendimento si divide in molte categorie, tra cui l'apprendimento supervisionato, l'apprendimento non supervisionato, l'apprendimento online e l'apprendimento per rinforzo. L'apprendimento supervisionato riguarda l'osservazione di dati contenuti in un insieme di addestramento (training set). Ogni punto nel training set è una coppia di valori input-output, in cui l'input viene mappato a un output. Il problema di apprendimento consiste nell'inferire la funzione che mappa l'input all'output, in modo tale che la funzione appresa possa essere utilizzata per prevedere l'output associato ad input del futuro.

La funzione stimata che associa un input ad un output è detta ipotesi, stimatore o predittore (nella letteratura inglese hypothesis, estimator, predictor), e si usa ${\hat {f}}$ come notazione.

A seconda del tipo di output, i problemi di apprendimento supervisionato sono problemi di regressione o problemi di classificazione. Se l'output appartiene ad un intervallo continuo di valori, si tratta di un problema di regressione.

I problemi di classificazione sono quelli per i quali l'output apparterrà ad un elemento di un insieme discreto di etichette. La classificazione è molto comune per le applicazioni di intelligenza artificiale. Nel riconoscimento facciale, ad esempio, l'immagine del volto di una persona sarebbe l'input e l'etichetta di output sarebbe il nome di quella persona. L'immagine input sarebbe rappresentata da un grande vettore multidimensionale i cui elementi rappresentano i pixel nell'immagine.

Algoritmo[modifica | modifica wikitesto]

Lo scopo di un algoritmo di apprendimento è osservare i dati del training set e generare una funzione capace di predire l'output associato ad un input. Tale funzione viene convalidata su un test set, contenente dati che non sono presenti nel training set

Formalismo[modifica | modifica wikitesto]

I valori di input ${\vec {x}}$ vivono in uno spazio vettoriale multidimensionale $X\subset \mathbb {R} ^{d}$ , mentre gli output $y_{i}$ sono scalari reali, appartenenti a $Y\subset \mathbb {R}$ . La coppia di valori $({\vec {x}},y)$ è detta punto o campione e compone l''insieme di addestramento, o training set, spesso denotato con $S$ , che si scrive

$S=\{({\vec {x}}_{1},y_{1}),\dots ,({\vec {x}}_{n},y_{n})\}$

L'assunzione di base del procedimento è l'esistenza di una distribuzione di probabilità $p({\vec {x}},y)$ , definita sullo spazio del prodotto $X\times Y$ , che lega gli input e gli output; tale distribuzione è fissa ma sconosciuta. In questo formalismo, il problema di inferenza consiste nel trovare una funzione $f:X\to Y$ tale che $f({\vec {x}})\sim y$ . L'algoritmo cerchera la migliore funzione $f$ in un sottospazio denotato con ${\mathcal {H}}$ e chiamato spazio delle ipotesi.

Sia $V(f({\vec {x}}),y)$ la funzione di perdita, uno strumento per misurare la differenza tra il valore previsto $f({\vec {x}})$ e il valore vero $y$ . Il rischio atteso (o errore atteso) è il valore atteso della funzione di perdita, ed è definito come

I[f]=\displaystyle \int _{X\times Y}V(f({\vec {x}}),y)\,p({\vec {x}},y)\,d{\vec {x}}\,dy

La migliore funzione possibile $f$ che può essere scelta, soddisfa la condizione

f=\inf _{h\in {\mathcal {H}}}I[h]

Poiché la distribuzione di probabilità $p({\vec {x}},y)$ non è nota, deve essere utilizzata una stima per il valore atteso della funzione di perdita. Questa misura si basa sul training set, un campione di questa distribuzione di probabilità sconosciuta. Si chiama rischio empirico

I_{S}[f]={\frac {1}{n}}\displaystyle \sum _{i=1}^{n}V(f({\vec {x}}_{i}),y_{i})

Un algoritmo di apprendimento che sceglie la funzione $f_{S}$ che minimizza il rischio empirico si chiama minimizzazione del rischio empirico.

Funzioni di perdita[modifica | modifica wikitesto]

La scelta della funzione di perdita è un fattore determinante sulla funzione $f_{S}$ che sarà scelto dall'algoritmo di apprendimento. La funzione di perdita influenza anche il tasso di convergenza per un algoritmo. È importante che la funzione di perdita sia convessa.^[2]

Vengono utilizzate diverse funzioni di perdita a seconda che il problema sia di regressione o di classificazione.

La funzione di perdita più comune per la regressione è la funzione di perdita quadrata (nota anche come norma L2). Questa familiare funzione di perdita viene utilizzata nella regressione dei minimi quadrati ordinari. Il modulo è:

V(f({\vec {x}}),y)=(y-f({\vec {x}}))^{2}

Classificazione[modifica | modifica wikitesto]

In un certo senso la funzione indicatrice 0-1 è la funzione di perdita più naturale per la classificazione. Prende il valore 0 se l'output previsto è lo stesso dell'output effettivo e assume il valore 1 se l'output previsto è diverso dall'output effettivo. Per la classificazione binaria con $Y=\{-1,1\}$ , questo è:

V(f({\vec {x}}),y)=\theta (-yf({\vec {x}}))

dove $\theta$ è la funzione gradino di Heaviside.

Regolarizzazione[modifica | modifica wikitesto]

Nei problemi di apprendimento automatico, un grosso problema che si pone è quello del sovradattamento. Poiché l'apprendimento è un problema di previsione, l'obiettivo non è trovare una funzione che si adatti maggiormente ai dati (osservati in precedenza), ma trovarne una che preveda in modo più accurato l'output dall'input futuro. La minimizzazione del rischio empirico corre questo rischio di sovradattamento: trovare una funzione che corrisponda esattamente ai dati ma non preveda bene l'output futuro.

Il sovradattamento è sintomatico di soluzioni instabili; una piccola perturbazione nei dati del training set causerebbe una grande variazione nella funzione appresa. Si può dimostrare che se può essere garantita la stabilità per la soluzione, sono garantite anche la generalizzazione e la consistenza.^[3]^[4] La regolarizzazione può risolvere il problema del sovradattamento e dare stabilità al problema.

La regolarizzazione può essere ottenuta restringendo lo spazio delle ipotesi ${\mathcal {H}}$ . Un esempio comune sarebbe la restrizione ${\mathcal {H}}$ alle funzioni lineari: questo può essere visto come una riduzione al problema standard della regressione lineare. ${\mathcal {H}}$ potrebbe anche essere limitato al polinomio di grado $p$ , esponenziali o funzioni limitate su L1. La restrizione dello spazio delle ipotesi evita l'overfitting perché la forma delle funzioni potenziali è limitata, e quindi non consente la scelta di una funzione che dia un rischio empirico arbitrariamente vicino allo zero.

Un esempio di regolarizzazione è la regolarizzazione di Tichonov. Consiste nel minimizzare

{\frac {1}{n}}\displaystyle \sum _{i=1}^{n}V(f({\vec {x}}_{i}),y_{i})+\gamma \|f\|_{\mathcal {H}}^{2}

dove $\gamma$ è un parametro fisso e positivo, il parametro di regolarizzazione. La regolarizzazione di Tikhonov garantisce l'esistenza, l'unicità e la stabilità della soluzione.^[5]

Note[modifica | modifica wikitesto]

^ Vladimir Vapnik (1995) The Nature of Statistical Learning Theory, Springer New York ISBN 978-1-475-72440-0.
^ Rosasco, L., Vito, E.D., Caponnetto, A., Fiana, M., and Verri A. 2004. Neural computation Vol 16, pp 1063-1076
^ Vapnik, V.N. and Chervonenkis, A.Y. 1971. On the uniform convergence of relative frequencies of events to their probabilities. Theory of Probability and Its Applications Vol 16, pp 264-280.
^ Mukherjee, S., Niyogi, P. Poggio, T., and Rifkin, R. 2006. Learning theory: stability is sufficient for generalization and necessary and sufficient for consistency of empirical risk minimization. Advances in Computational Mathematics. Vol 25, pp 161-193.
^ Tomaso Poggio, Lorenzo Rosasco, et al. Statistical Learning Theory and Applications, 2012, Class 2

Portale Informatica

Portale Statistica

[1] Vladimir Vapnik (1995) The Nature of Statistical Learning Theory, Springer New York ISBN 978-1-475-72440-0.

[2] Rosasco, L., Vito, E.D., Caponnetto, A., Fiana, M., and Verri A. 2004. Neural computation Vol 16, pp 1063-1076

[3] Vapnik, V.N. and Chervonenkis, A.Y. 1971. On the uniform convergence of relative frequencies of events to their probabilities. Theory of Probability and Its Applications Vol 16, pp 264-280.

[4] Mukherjee, S., Niyogi, P. Poggio, T., and Rifkin, R. 2006. Learning theory: stability is sufficient for generalization and necessary and sufficient for consistency of empirical risk minimization. Advances in Computational Mathematics. Vol 25, pp 161-193.

[5] Tomaso Poggio, Lorenzo Rosasco, et al. Statistical Learning Theory and Applications, 2012, Class 2

[1]

[2]

[3]

[4]

[5]

V · D · M Apprendimento automatico
Problemi	Teoria dell'apprendimento statistico · Classificazione · Regressione · Regole di associazione · Apprendimento non supervisionato · Apprendimento supervisionato · Apprendimento per rinforzo · Apprendimento profondo
Apprendimento non supervisionato	Clustering · Clustering gerarchico · K-means · Algoritmo EM · Dbscan · Mean shift · Rete generativa avversaria (cGAN · VAE-GAN · cycleGAN)
Apprendimento supervisionato	Albero di decisione · Foresta casuale · Conditional random fields · Modello di Markov nascosto · K-nearest neighbors · Classificatore bayesiano · Rete neurale artificiale · Regressione lineare · Regressione logistica · Probabilistic graphical model · Macchine a vettori di supporto
Apprendimento per rinforzo	Q-learning · SARSA · TD
Riduzione della dimensionalità	Analisi fattoriale · Correlazione canonica (CCA) · Analisi delle componenti indipendenti (ICA) · Analisi discriminante lineare (LDA) · Analisi delle componenti principali (PCA) · Selezione delle caratteristiche · Estrazione di caratteristiche · t-distributed stochastic neighbor embedding (t-SNE)
Reti neurali artificiali	Percettrone · Rete neurale a base radiale · Rete bayesiana · Rete neurale feed-forward · Rete di Hopfield · Percettrone multistrato · Rete neurale ricorrente (LSTM) · Macchina di Boltzmann ristretta · Mappa auto-organizzata · Rete neurale convoluzionale · Rete neurale a ritardo · Rete neurale spiking · Trasformatore
Software	Keras · Microsoft Cognitive Toolkit · Scikit-learn · TensorFlow · Theano · Torch · Weka
Altro	Algoritmo genetico · Particle Swarm Optimization · Caratteristica · Compromesso bias-varianza · Minimizzazione del rischio empirico

Teoria dell'apprendimento statistico

Indice

Introduzione[modifica | modifica wikitesto]

Algoritmo[modifica | modifica wikitesto]

Formalismo[modifica | modifica wikitesto]

Funzioni di perdita[modifica | modifica wikitesto]

Classificazione[modifica | modifica wikitesto]

Regolarizzazione[modifica | modifica wikitesto]

Note[modifica | modifica wikitesto]

Menu di navigazione

Teoria dell'apprendimento statistico

Introduzione[modifica | modifica wikitesto]

Algoritmo[modifica | modifica wikitesto]

Formalismo[modifica | modifica wikitesto]

Funzioni di perdita[modifica | modifica wikitesto]

Classificazione[modifica | modifica wikitesto]

Regolarizzazione[modifica | modifica wikitesto]

Note[modifica | modifica wikitesto]

Menu di navigazione

Ricerca