AlexNet: differenze tra le versioni
←Nuova pagina: thumb|upright=2|Architettura di AlexNet (Krizhevsky et al., 2012) '''AlexNet''' è un modello di rete neurale convoluzionale (CNN) profonda progettata dai dottorandi Alex Krizhevsky e Ilya Sutskever, sotto la supervisione di Geoffrey Hinton.<ref name =":1">{{Cite web|url=https://qz.com/1034972/the-data-that-changed-the-direction-of-ai-res... |
(Nessuna differenza)
|
Versione delle 18:47, 22 apr 2023
AlexNet è un modello di rete neurale convoluzionale (CNN) profonda progettata dai dottorandi Alex Krizhevsky e Ilya Sutskever, sotto la supervisione di Geoffrey Hinton.[1][2]
AlexNet rappresentò un significativo avanzamento nel riconoscimento automatico delle immagini. Nella ImageNet Large Scale Visual Recognition Challenge del 2012[3] AlexNet ottenne un errore top-5 del 15.3%, oltre 10.8 punti percentuali in meno del secondo classificato. La profondità del modello risultò essenziale per la qualità dei risultati, e il problema dell'elevato costo computazionale venne aggirato eseguendo l'addestramento del modello su due GPU in parallelo.[2]
La descrizione e i risultati di AlexNet furono pubblicati nel 2012 in uno degli articoli di ricerca più influenti nella storia della visione artificiale, citato in oltre 130 000 pubblicazioni al 2023,[4] aprendo la strada all'uso estensivo dell'apprendimento profondo nella visione artificiale.[5]
Architettura
AlexNet ha otto livelli: i primi cinque livelli sono convoluzionali, alcuni facendo uso di max-pooling, mentre gli ultimi tre livelli sono completamente connessi. Ad eccezione dell'ultimo livello, il resto della rete era diviso in due copie, eseguite separatamente in due GPU.[2] La rete usa la funzione di attivazione ReLU, che dimostrò migliori risultati rispetto a funzioni tradizionali come la funzione sigmoidea e la tangente iperbolica.[2]
La struttura è la seguente:
dove gli acronimi rappresentano:
- CNN = livello convoluzionale (con funzione di attivazione ReLU)
- RN = local response normalization
- MP = max-pooling
- FC = livello completamente connesso (con funzione di attivazione ReLU)
- Linear = livello completamente connesso, senza funzione di attivazione
- DO = dropout
Precursori
Un'implementazione di CNN accelerata tramite GPU, pubblicata da K. Chellapilla et al. nel 2006, mostrò tempi di esecuzione circa quattro volte più veloci rispetto ad esecuzione su CPU.[6] Dan Cireșan et al. pubblicarono nel 2011 un articolo con i risultati della loro CNN, la cui velocità su GPU era 60 volte maggiore rispetto a quella su CPU,[7][8] vinse quattro competizioni nel settore del riconoscimento delle immagini[9][10] e avanzò lo stato dell'arte nel riconoscimento delle immagini.[11] Gli autori di AlexNet citarono i risultati di Cireșan e menzionarono le similarità con AlexNet.[2]
Di fatto, entrambi i modelli erano varianti dell'architettura introdotta da Yann LeCun et al. nel 1989,[12][13] che applicarono la retropropagazione dell'errore all'addestramento di una variante di rete neurale convoluzionale precedentemente introdotta da Kunihiko Fukushima e nota come "neocognitron",[14][15] successivamente estesa con l'uso di max-pooling, introdotto da J. Weng.[16][10]
Note
- ^ Dave Gershgorn, The data that transformed AI research—and possibly the world, su qz.com, 26 July 2017.
- ^ a b c d e ImageNet classification with deep convolutional neural networks (PDF), in Communications of the ACM, vol. 60, n. 6, 24 maggio 2017, pp. 84–90, DOI:10.1145/3065386.
- ^ ImageNet Large Scale Visual Recognition Competition 2012 (ILSVRC2012), su image-net.org.
- ^ AlexNet paper on Google Scholar
- ^ Adit Deshpande, The 9 Deep Learning Papers You Need To Know About (Understanding CNNs Part 3), su adeshpande3.github.io.
- ^ High Performance Convolutional Neural Networks for Document Processing, in Tenth International Workshop on Frontiers in Handwriting Recognition, Suvisoft, 2006.
- ^ Dan Cireșan, Flexible, High Performance Convolutional Neural Networks for Image Classification (PDF), in Proceedings of the Twenty-Second International Joint Conference on Artificial Intelligence-Volume Volume Two, vol. 2, 2011, pp. 1237–1242.
- ^ (EN) IJCNN 2011 Competition result table, su benchmark.ini.rub.de, 2010.
- ^ (EN) History of computer vision contests won by deep CNNs on GPU, su people.idsia.ch, 17 March 2017.
- ^ a b Deep Learning, in Scholarpedia, vol. 10, n. 11, 2015, pp. 1527–54, DOI:10.1162/neco.2006.18.7.1527.
- ^ Multi-column deep neural networks for image classification, New York, NY, Institute of Electrical and Electronics Engineers (IEEE), June 2012, pp. 3642–3649, DOI:10.1109/CVPR.2012.6248110, ISBN 978-1-4673-1226-4.
- ^ Y. LeCun, Backpropagation Applied to Handwritten Zip Code Recognition (PDF), in Neural Computation, vol. 1, n. 4, MIT Press - Journals, 1989, pp. 541–551, DOI:10.1162/neco.1989.1.4.541.
- ^ Yann LeCun, Gradient-based learning applied to document recognition (PDF), in Proceedings of the IEEE, vol. 86, n. 11, 1998, pp. 2278–2324, DOI:10.1109/5.726791.
- ^ Neocognitron, in Scholarpedia, vol. 2, n. 1, 2007, DOI:10.4249/scholarpedia.1717.
- ^ Kunihiko Fukushima, Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position (PDF), in Biological Cybernetics, vol. 36, n. 4, 1980, pp. 193–202, DOI:10.1007/BF00344251.
- ^ Learning recognition and segmentation of 3-D objects from 2-D images, in Proc. 4th International Conf. Computer Vision, 1993, pp. 121–128.