AlexNet: differenze tra le versioni

Da Wikipedia, l'enciclopedia libera.
Vai alla navigazione Vai alla ricerca
Contenuto cancellato Contenuto aggiunto
Nuova pagina: thumb|upright=2|Architettura di AlexNet (Krizhevsky et al., 2012) '''AlexNet''' è un modello di rete neurale convoluzionale (CNN) profonda progettata dai dottorandi Alex Krizhevsky e Ilya Sutskever, sotto la supervisione di Geoffrey Hinton.<ref name =":1">{{Cite web|url=https://qz.com/1034972/the-data-that-changed-the-direction-of-ai-res...
(Nessuna differenza)

Versione delle 18:47, 22 apr 2023

File:AlexNet architecture (Krizhevsky et al, 2012).pdf
Architettura di AlexNet (Krizhevsky et al., 2012)

AlexNet è un modello di rete neurale convoluzionale (CNN) profonda progettata dai dottorandi Alex Krizhevsky e Ilya Sutskever, sotto la supervisione di Geoffrey Hinton.[1][2]

AlexNet rappresentò un significativo avanzamento nel riconoscimento automatico delle immagini. Nella ImageNet Large Scale Visual Recognition Challenge del 2012[3] AlexNet ottenne un errore top-5 del 15.3%, oltre 10.8 punti percentuali in meno del secondo classificato. La profondità del modello risultò essenziale per la qualità dei risultati, e il problema dell'elevato costo computazionale venne aggirato eseguendo l'addestramento del modello su due GPU in parallelo.[2]

La descrizione e i risultati di AlexNet furono pubblicati nel 2012 in uno degli articoli di ricerca più influenti nella storia della visione artificiale, citato in oltre 130 000 pubblicazioni al 2023,[4] aprendo la strada all'uso estensivo dell'apprendimento profondo nella visione artificiale.[5]

Architettura

AlexNet ha otto livelli: i primi cinque livelli sono convoluzionali, alcuni facendo uso di max-pooling, mentre gli ultimi tre livelli sono completamente connessi. Ad eccezione dell'ultimo livello, il resto della rete era diviso in due copie, eseguite separatamente in due GPU.[2] La rete usa la funzione di attivazione ReLU, che dimostrò migliori risultati rispetto a funzioni tradizionali come la funzione sigmoidea e la tangente iperbolica.[2]

La struttura è la seguente:

dove gli acronimi rappresentano:

  • CNN = livello convoluzionale (con funzione di attivazione ReLU)
  • RN = local response normalization
  • MP = max-pooling
  • FC = livello completamente connesso (con funzione di attivazione ReLU)
  • Linear = livello completamente connesso, senza funzione di attivazione
  • DO = dropout

Precursori

Un'implementazione di CNN accelerata tramite GPU, pubblicata da K. Chellapilla et al. nel 2006, mostrò tempi di esecuzione circa quattro volte più veloci rispetto ad esecuzione su CPU.[6] Dan Cireșan et al. pubblicarono nel 2011 un articolo con i risultati della loro CNN, la cui velocità su GPU era 60 volte maggiore rispetto a quella su CPU,[7][8] vinse quattro competizioni nel settore del riconoscimento delle immagini[9][10] e avanzò lo stato dell'arte nel riconoscimento delle immagini.[11] Gli autori di AlexNet citarono i risultati di Cireșan e menzionarono le similarità con AlexNet.[2]

Di fatto, entrambi i modelli erano varianti dell'architettura introdotta da Yann LeCun et al. nel 1989,[12][13] che applicarono la retropropagazione dell'errore all'addestramento di una variante di rete neurale convoluzionale precedentemente introdotta da Kunihiko Fukushima e nota come "neocognitron",[14][15] successivamente estesa con l'uso di max-pooling, introdotto da J. Weng.[16][10]

Note

  1. ^ Dave Gershgorn, The data that transformed AI research—and possibly the world, su qz.com, 26 July 2017.
  2. ^ a b c d e ImageNet classification with deep convolutional neural networks (PDF), in Communications of the ACM, vol. 60, n. 6, 24 maggio 2017, pp. 84–90, DOI:10.1145/3065386.
  3. ^ ImageNet Large Scale Visual Recognition Competition 2012 (ILSVRC2012), su image-net.org.
  4. ^ AlexNet paper on Google Scholar
  5. ^ Adit Deshpande, The 9 Deep Learning Papers You Need To Know About (Understanding CNNs Part 3), su adeshpande3.github.io.
  6. ^ High Performance Convolutional Neural Networks for Document Processing, in Tenth International Workshop on Frontiers in Handwriting Recognition, Suvisoft, 2006.
  7. ^ Dan Cireșan, Flexible, High Performance Convolutional Neural Networks for Image Classification (PDF), in Proceedings of the Twenty-Second International Joint Conference on Artificial Intelligence-Volume Volume Two, vol. 2, 2011, pp. 1237–1242.
  8. ^ (EN) IJCNN 2011 Competition result table, su benchmark.ini.rub.de, 2010.
  9. ^ (EN) History of computer vision contests won by deep CNNs on GPU, su people.idsia.ch, 17 March 2017.
  10. ^ a b Deep Learning, in Scholarpedia, vol. 10, n. 11, 2015, pp. 1527–54, DOI:10.1162/neco.2006.18.7.1527.
  11. ^ Multi-column deep neural networks for image classification, New York, NY, Institute of Electrical and Electronics Engineers (IEEE), June 2012, pp. 3642–3649, DOI:10.1109/CVPR.2012.6248110, ISBN 978-1-4673-1226-4.
  12. ^ Y. LeCun, Backpropagation Applied to Handwritten Zip Code Recognition (PDF), in Neural Computation, vol. 1, n. 4, MIT Press - Journals, 1989, pp. 541–551, DOI:10.1162/neco.1989.1.4.541.
  13. ^ Yann LeCun, Gradient-based learning applied to document recognition (PDF), in Proceedings of the IEEE, vol. 86, n. 11, 1998, pp. 2278–2324, DOI:10.1109/5.726791.
  14. ^ Neocognitron, in Scholarpedia, vol. 2, n. 1, 2007, DOI:10.4249/scholarpedia.1717.
  15. ^ Kunihiko Fukushima, Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position (PDF), in Biological Cybernetics, vol. 36, n. 4, 1980, pp. 193–202, DOI:10.1007/BF00344251.
  16. ^ Learning recognition and segmentation of 3-D objects from 2-D images, in Proc. 4th International Conf. Computer Vision, 1993, pp. 121–128.