AlexNet

Da Wikipedia, l'enciclopedia libera.
Vai alla navigazione Vai alla ricerca

AlexNet è un modello di rete neurale convoluzionale (CNN) profonda progettata dai dottorandi Alex Krizhevsky e Ilya Sutskever, sotto la supervisione di Geoffrey Hinton.[1][2]

AlexNet rappresentò un significativo avanzamento nel riconoscimento automatico delle immagini. Nella ImageNet Large Scale Visual Recognition Challenge del 2012[3] AlexNet ottenne un errore top-5 del 15.3%, oltre 10.8 punti percentuali in meno del secondo classificato. La profondità del modello risultò essenziale per la qualità dei risultati, e il problema dell'elevato costo computazionale venne aggirato eseguendo l'addestramento del modello su due GPU in parallelo.[2]

La descrizione e i risultati di AlexNet furono pubblicati nel 2012 in uno degli articoli di ricerca più influenti nella storia della visione artificiale, citato in oltre 130 000 pubblicazioni al 2023,[4] aprendo la strada all'uso estensivo dell'apprendimento profondo nella visione artificiale.[5]

Architettura[modifica | modifica wikitesto]

AlexNet ha otto livelli: i primi cinque livelli sono convoluzionali, alcuni facendo uso di max-pooling, mentre gli ultimi tre livelli sono completamente connessi. Ad eccezione dell'ultimo livello, il resto della rete era diviso in due copie, eseguite separatamente in due GPU.[2] La rete usa la funzione di attivazione ReLU, che dimostrò migliori risultati rispetto a funzioni tradizionali come la funzione sigmoidea e la tangente iperbolica.[2]

La struttura è la seguente:

dove gli acronimi rappresentano:

  • CNN = livello convoluzionale (con funzione di attivazione ReLU)
  • RN = local response normalization
  • MP = max-pooling
  • FC = livello completamente connesso (con funzione di attivazione ReLU)
  • Linear = livello completamente connesso, senza funzione di attivazione
  • DO = dropout

Precursori[modifica | modifica wikitesto]

Un'implementazione di CNN accelerata tramite GPU, pubblicata da K. Chellapilla et al. nel 2006, mostrò tempi di esecuzione circa quattro volte più veloci rispetto ad esecuzione su CPU.[6] Dan Cireșan et al. pubblicarono nel 2011 un articolo con i risultati della loro CNN, la cui velocità su GPU era 60 volte maggiore rispetto a quella su CPU,[7][8] vinse quattro competizioni nel settore del riconoscimento delle immagini[9][10] e avanzò lo stato dell'arte nel riconoscimento delle immagini.[11] Gli autori di AlexNet citarono i risultati di Cireșan e menzionarono le similarità con AlexNet.[2]

Di fatto, entrambi i modelli erano varianti dell'architettura introdotta da Yann LeCun et al. nel 1989,[12][13] che applicarono la retropropagazione dell'errore all'addestramento di una variante di rete neurale convoluzionale precedentemente introdotta da Kunihiko Fukushima e nota come "neocognitron",[14][15] successivamente estesa con l'uso di max-pooling, introdotto da J. Weng.[10][16]

Note[modifica | modifica wikitesto]

  1. ^ Dave Gershgorn, The data that transformed AI research—and possibly the world, su Quartz, 26 luglio 2017.
  2. ^ a b c d e Alex Krizhevsky, Ilya Sutskever e Geoffrey E. Hinton, ImageNet classification with deep convolutional neural networks (PDF), in Communications of the ACM, vol. 60, n. 6, 24 maggio 2017, pp. 84–90, DOI:10.1145/3065386, ISSN 0001-0782 (WC · ACNP).
  3. ^ ImageNet Large Scale Visual Recognition Competition 2012 (ILSVRC2012), su image-net.org.
  4. ^ AlexNet paper on Google Scholar
  5. ^ Adit Deshpande, The 9 Deep Learning Papers You Need To Know About (Understanding CNNs Part 3), su adeshpande3.github.io. URL consultato il 4 dicembre 2018.
  6. ^ Kumar Chellapilla, Sidd Puri e Patrice Simard, High Performance Convolutional Neural Networks for Document Processing, in Guy Lorette (a cura di), Tenth International Workshop on Frontiers in Handwriting Recognition, Suvisoft, 2006.
  7. ^ Dan Cireșan, Ueli Meier, Jonathan Masci, Luca M. Gambardella e Jurgen Schmidhuber, Flexible, High Performance Convolutional Neural Networks for Image Classification (PDF), in Proceedings of the Twenty-Second International Joint Conference on Artificial Intelligence-Volume Volume Two, vol. 2, 2011, pp. 1237–1242. URL consultato il 17 novembre 2013.
  8. ^ (EN) IJCNN 2011 Competition result table, su OFFICIAL IJCNN2011 COMPETITION, 2010. URL consultato il 14 gennaio 2019.
  9. ^ (EN) Jürgen Schmidhuber, History of computer vision contests won by deep CNNs on GPU, su people.idsia.ch, 17 marzo 2017. URL consultato il 14 gennaio 2019.
  10. ^ a b Jürgen Schmidhuber, Deep Learning, in Scholarpedia, vol. 10, n. 11, 2015, pp. 1527–54, DOI:10.1162/neco.2006.18.7.1527, PMID 16764513.
  11. ^ Dan Cireșan, Ueli Meier e Jürgen Schmidhuber, Multi-column deep neural networks for image classification, in 2012 IEEE Conference on Computer Vision and Pattern Recognition, New York, NY, Institute of Electrical and Electronics Engineers (IEEE), giugno 2012, pp. 3642–3649, DOI:10.1109/CVPR.2012.6248110, ISBN 978-1-4673-1226-4, OCLC 812295155, arXiv:1202.2745.
  12. ^ Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard e L. D. Jackel, Backpropagation Applied to Handwritten Zip Code Recognition (PDF), in Neural Computation, vol. 1, n. 4, MIT Press - Journals, 1989, pp. 541–551, DOI:10.1162/neco.1989.1.4.541, ISSN 0899-7667 (WC · ACNP), OCLC 364746139.
  13. ^ Yann LeCun, Léon Bottou, Yoshua Bengio e Patrick Haffner, Gradient-based learning applied to document recognition (PDF), in Proceedings of the IEEE, vol. 86, n. 11, 1998, pp. 2278–2324, DOI:10.1109/5.726791. URL consultato il 7 ottobre 2016.
  14. ^ K. Fukushima, Neocognitron, in Scholarpedia, vol. 2, n. 1, 2007, p. 1717, Bibcode:2007SchpJ...2.1717F, DOI:10.4249/scholarpedia.1717.
  15. ^ Kunihiko Fukushima, Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position (PDF), in Biological Cybernetics, vol. 36, n. 4, 1980, pp. 193–202, DOI:10.1007/BF00344251, PMID 7370364. URL consultato il 16 novembre 2013.
  16. ^ J Weng, N Ahuja e TS Huang, Learning recognition and segmentation of 3-D objects from 2-D images, in Proc. 4th International Conf. Computer Vision, 1993, pp. 121–128.