Percettrone

Da Wikipedia, l'enciclopedia libera.

Il percettrone è un tipo di classificatore binario che mappa i suoi ingressi x (un vettore di tipo reale) in un valore di output f \left( x \right) (uno scalare di tipo reale) calcolato con


f \left( x\right ) = \chi \left( \langle w,x \rangle + b \right)


dove w è un vettore di pesi con valori reali, l'operatore \langle \cdot,\cdot \rangle è il prodotto scalare (che calcola una somma pesata degli input), b è il 'bias', un termine costante che non dipende da alcun valore in input e \chi \left( y \right) è la funzione di output. Le scelte più comuni per la funzione \chi \left( y \right) sono:

  1.  \chi \left( y \right) = \operatorname{sign} \left( y \right)
  2.  \chi \left( y \right) = y \, \Theta \left( y \right)
  3.  \chi \left( y \right) = y

dove \Theta \left( y \right) è la funzione di Heaviside

Il primo caso corrisponde a un classificatore binario (l'output può assumere solamente i valori +1 e -1); un caso particolarmente studiato è quello in cui sia gli input x che l'output f \left( x \right) sono binari.

Il bias b può essere pensato come un settaggio della funzione di attivazione (per es. quando  \chi \left( y \right) è come nel caso 3), o come un livello base di attivazione per l'output del neurone (per es. quando \chi \left( y \right) è come nei casi 1 e 2). In quest'ultima situazione, il valore -b rappresenta un valore di soglia che la somma pesata degli input deve superare affinché il dispositivo sia attivo (cioè che l'output sia positivo).

Il percettrone può essere considerato come il più semplice modello di rete neurale feed-forward, in quanto gli input alimentano direttamente l'unità di output attraverso connessioni pesate. Nel caso in cui gli input e gli output sono dello stesso tipo, è possibile creare reti più complesse unendo più percettroni insieme, per esempio usando un gruppo (o strato) di percettroni come input per un secondo gruppo di percettroni, oppure facendo in modo che l'input di ogni percettrone della rete sia dato dall'output di ogni altro percettrone (rete fully-connected).

Il problema dell'apprendimento[modifica | modifica sorgente]

Modificando il vettore dei pesi w, è possibile modulare l'output di un percettrone, con lo scopo d'ottenere delle proprietà di apprendimento o di memorizzazione. Per esempio, si può cercare di istruire un percettrone in modo che, dato un input x, l'output f \left( x \right) sia quanto più vicino possibile a un dato valore g \left( x \right) scelto a priori; le capacità computazionali di un singolo percettrone sono tuttavia limitate, e le prestazioni che è possibile ottenere dipendono fortemente sia dalla scelta degli input (che potrebbero per esempio essere limitati ad un sottoinsieme di tutti gli input possibili, oppure venire estratti a caso secondo una certa distribuzione di probabilità prefissata) che dalla scelta della funzione che si desidera implementare, g \left( x \right). In misura minore, dipendono anche da come viene quantificata la distanza tra gli output effettivi e quelli attesi.

Una volta che si sia definito il problema dell'apprendimento, si può cercare di trovare l'assegnazione ottimale di pesi \overline{w} per il problema dato.

Algoritmo di apprendimento standard[modifica | modifica sorgente]

L'algoritmo di apprendimento standard è un algoritmo iterativo, definito come segue: ad ogni iterazione t, un vettore di input x^{t} viene presentato al percettrone, che calcola l'output f \left( x^{t} \right) e lo confronta con il risultato desiderato g \left( x^{t} \right); quindi, il vettore dei pesi w^{t} viene aggiornato come segue:

w^{t+1} = w^{t} + \alpha \left( g \left( x^{t} \right) - f \left( x^{t} \right) \right) x^{t}

dove \alpha è una costante di apprendimento strettamente positiva che regola la velocità dell'apprendimento. Al passo successivo, il nuovo input x^{t+1} verrà pesato secondo il nuovo vettore w^{t+1}, che verrà poi nuovamente modificato in w^{t+2} e così via.

L'insieme D_{x} da cui sono estratti i campioni x presentati al pecettrone durante il periodo dell'apprendimento è detto training set.

I pesi appropriati (w) vengono applicati agli input (x) che passati ad una funzione che produce l'output (y)

Nel caso in cui, per ogni possibile vettore di input x \in D_{x}, esistono un vettore \tilde{x} e una costante \gamma tali che g \left( x \right) \cdot \left( \langle w, x \rangle + b \right) > \gamma , il trainig set è detto linearmente separabile (geometricamente, questa condizione descrive la situazione in cui esiste un iperpiano in grado di separare, nello spazio vettoriale degli input, quelli che richiedono un output positivo da quelli che richiedono un output negativo). In questo caso, Novikoff (1962) ha provato che l'algoritmo standard converge, nel senso che il numero di errori è limitato da \left(\frac{2R}{\gamma}\right)^2, in un numero finito di passi. Non è invece garantito che l'algoritmo descritto converga se il training set non è linearmente separabile. Inoltre, altri algoritmi (per es. l'algoritmo adatron), possono avere, in determinate situazioni, prestazioni migliori in termini di tempo di convergenza, di capacità di apprendimento, di generalizzazione ecc.


Storia[modifica | modifica sorgente]

Il percettrone fu proposto da Frank Rosenblatt nel 1958 come un'entità con uno strato di ingresso ed uno di uscita ed una regola di apprendimento basata sulla minimizzazione dell'errore, la cosiddetta funzione di error back-propagation (retro propagazione dell'errore) che in base alla valutazione sull'uscita effettiva della rete rispetto ad un dato ingresso altera i pesi delle connessioni (sinapsi) come differenza tra l'uscita effettiva e quella desiderata.

L'entusiasmo fu enorme e nacque il settore della cibernetica, ma dopo che Marvin Minsky e Seymour Papert dimostrarono i limiti del percettrone e cioè la sua capacità di riconoscere dopo un opportuno addestramento solamente funzioni linearmente separabili (ad esempio la funzione logica XOR non può essere implementata da un percettrone) l'interesse scemò rapidamente.

Di fatto una rete a più livelli di percettroni poteva risolvere problemi più complessi, ma la crescente complessità computazionale dell'addestramento rendeva impraticabile questa strada. Solo nel decennio successivo si riprese a considerare l'utilità di questa entità operazionale.

Collegamenti esterni[modifica | modifica sorgente]

Matematica Portale Matematica: accedi alle voci di Wikipedia che trattano di Matematica