Apprendimento per rinforzo

Da Wikipedia, l'enciclopedia libera.
Vai a: navigazione, cerca

L'Apprendimento per rinforzo è una filosofia di programmazione che punta a realizzare algoritmi in grado di apprendere e adattarsi alle mutazioni dell'ambiente. Questa tecnica di programmazione si basa sul presupposto di potere ricevere degli stimoli dall'esterno a seconda delle scelte dell'algoritmo. Quindi una scelta corretta comporterà un premio mentre una scelta scorretta porterà ad una penalizzazione del sistema. L'obiettivo del sistema è il raggiungimento del maggior premio possibile e di conseguenza del migliore risultato possibile. Le tecniche legate all'apprendimento per rinforzo si dividono in due categorie:

  • Algoritmi ad apprendimento continuo:
Queste tecniche partono dal presupposto di disporre di un meccanismo semplice in grado di valutare le scelte dell'algoritmo e quindi premiare o punire l'algoritmo a seconda del risultato, esse sono in grado di adattarsi anche a modifiche sostanziali dell'ambiente: un esempio sono i programmi di riconoscimento del parlato o i programmi di OCR che con l'utilizzo migliorano le loro prestazioni.
  • Algoritmi ad addestramento preventivo:
Questi algoritmi partono dalla constatazione che valutare costantemente le azioni dell'algoritmo può essere un procedimento non automatizzabile oppure molto costoso e in questo caso si applica una prima fase in cui si istruisce l'algoritmo e quando il sistema viene ritenuto affidabile viene cristallizzato e reso non più modificabile. Molti componenti elettronici usano delle reti neurali al loro interno, e i pesi sinaptici di queste reti non sono modificabili dato che sono fissati durante la realizzazione del circuito.

Da notare che le categorie sopraelencate sono delle scelte implementative più che delle differenze concettuali dell'algoritmo e quindi spesso un algoritmo può ricadere della prima o nella seconda categoria a seconda di come viene implementato dal progettista.

Principali algoritmi:

Strumenti personali
Namespace

Varianti
Azioni
Navigazione
Comunità
Stampa/esporta
Strumenti
Altre lingue