AlexNet: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto

In linea

Versione delle 18:47, 22 apr 2023

File:AlexNet architecture (Krizhevsky et al, 2012).pdf

Architettura di AlexNet (Krizhevsky et al., 2012)

AlexNet è un modello di rete neurale convoluzionale (CNN) profonda progettata dai dottorandi Alex Krizhevsky e Ilya Sutskever, sotto la supervisione di Geoffrey Hinton.^[1]^[2]

AlexNet rappresentò un significativo avanzamento nel riconoscimento automatico delle immagini. Nella ImageNet Large Scale Visual Recognition Challenge del 2012^[3] AlexNet ottenne un errore top-5 del 15.3%, oltre 10.8 punti percentuali in meno del secondo classificato. La profondità del modello risultò essenziale per la qualità dei risultati, e il problema dell'elevato costo computazionale venne aggirato eseguendo l'addestramento del modello su due GPU in parallelo.^[2]

La descrizione e i risultati di AlexNet furono pubblicati nel 2012 in uno degli articoli di ricerca più influenti nella storia della visione artificiale, citato in oltre 130 000 pubblicazioni al 2023,^[4] aprendo la strada all'uso estensivo dell'apprendimento profondo nella visione artificiale.^[5]

Architettura

AlexNet ha otto livelli: i primi cinque livelli sono convoluzionali, alcuni facendo uso di max-pooling, mentre gli ultimi tre livelli sono completamente connessi. Ad eccezione dell'ultimo livello, il resto della rete era diviso in due copie, eseguite separatamente in due GPU.^[2] La rete usa la funzione di attivazione ReLU, che dimostrò migliori risultati rispetto a funzioni tradizionali come la funzione sigmoidea e la tangente iperbolica.^[2]

La struttura è la seguente:

(CNN\to RN\to MP)^{2}\to (CNN^{3}\to MP)\to (FC\to DO)^{2}\to Linear\to softmax

dove gli acronimi rappresentano:

CNN = livello convoluzionale (con funzione di attivazione ReLU)
RN = local response normalization
MP = max-pooling
FC = livello completamente connesso (con funzione di attivazione ReLU)
Linear = livello completamente connesso, senza funzione di attivazione
DO = dropout

Precursori

Un'implementazione di CNN accelerata tramite GPU, pubblicata da K. Chellapilla et al. nel 2006, mostrò tempi di esecuzione circa quattro volte più veloci rispetto ad esecuzione su CPU.^[6] Dan Cireșan et al. pubblicarono nel 2011 un articolo con i risultati della loro CNN, la cui velocità su GPU era 60 volte maggiore rispetto a quella su CPU,^[7]^[8] vinse quattro competizioni nel settore del riconoscimento delle immagini^[9]^[10] e avanzò lo stato dell'arte nel riconoscimento delle immagini.^[11] Gli autori di AlexNet citarono i risultati di Cireșan e menzionarono le similarità con AlexNet.^[2]

Di fatto, entrambi i modelli erano varianti dell'architettura introdotta da Yann LeCun et al. nel 1989,^[12]^[13] che applicarono la retropropagazione dell'errore all'addestramento di una variante di rete neurale convoluzionale precedentemente introdotta da Kunihiko Fukushima e nota come "neocognitron",^[14]^[15] successivamente estesa con l'uso di max-pooling, introdotto da J. Weng.^[16]^[10]

Note

^ Dave Gershgorn, The data that transformed AI research—and possibly the world, su qz.com, 26 July 2017.
^ ^a ^b ^c ^d ^e ImageNet classification with deep convolutional neural networks (PDF), in Communications of the ACM, vol. 60, n. 6, 24 maggio 2017, pp. 84–90, DOI:10.1145/3065386.
^ ImageNet Large Scale Visual Recognition Competition 2012 (ILSVRC2012), su image-net.org.
^ AlexNet paper on Google Scholar
^ Adit Deshpande, The 9 Deep Learning Papers You Need To Know About (Understanding CNNs Part 3), su adeshpande3.github.io.
^ High Performance Convolutional Neural Networks for Document Processing, in Tenth International Workshop on Frontiers in Handwriting Recognition, Suvisoft, 2006.
^ Dan Cireșan, Flexible, High Performance Convolutional Neural Networks for Image Classification (PDF), in Proceedings of the Twenty-Second International Joint Conference on Artificial Intelligence-Volume Volume Two, vol. 2, 2011, pp. 1237–1242.
^ (EN) IJCNN 2011 Competition result table, su benchmark.ini.rub.de, 2010.
^ (EN) History of computer vision contests won by deep CNNs on GPU, su people.idsia.ch, 17 March 2017.
^ ^a ^b Deep Learning, in Scholarpedia, vol. 10, n. 11, 2015, pp. 1527–54, DOI:10.1162/neco.2006.18.7.1527.
^ Multi-column deep neural networks for image classification, New York, NY, Institute of Electrical and Electronics Engineers (IEEE), June 2012, pp. 3642–3649, DOI:10.1109/CVPR.2012.6248110, ISBN 978-1-4673-1226-4.
^ Y. LeCun, Backpropagation Applied to Handwritten Zip Code Recognition (PDF), in Neural Computation, vol. 1, n. 4, MIT Press - Journals, 1989, pp. 541–551, DOI:10.1162/neco.1989.1.4.541.
^ Yann LeCun, Gradient-based learning applied to document recognition (PDF), in Proceedings of the IEEE, vol. 86, n. 11, 1998, pp. 2278–2324, DOI:10.1109/5.726791.
^ Neocognitron, in Scholarpedia, vol. 2, n. 1, 2007, DOI:10.4249/scholarpedia.1717.
^ Kunihiko Fukushima, Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position (PDF), in Biological Cybernetics, vol. 36, n. 4, 1980, pp. 193–202, DOI:10.1007/BF00344251.
^ Learning recognition and segmentation of 3-D objects from 2-D images, in Proc. 4th International Conf. Computer Vision, 1993, pp. 121–128.

Portale Informatica

Portale Statistica

[:1-1] Dave Gershgorn, The data that transformed AI research—and possibly the world, su qz.com, 26 July 2017.

[:0-2] ImageNet classification with deep convolutional neural networks (PDF), in Communications of the ACM, vol. 60, n. 6, 24 maggio 2017, pp. 84–90, DOI:10.1145/3065386.

[:2-3] ImageNet Large Scale Visual Recognition Competition 2012 (ILSVRC2012), su image-net.org.

[4] AlexNet paper on Google Scholar

[5] Adit Deshpande, The 9 Deep Learning Papers You Need To Know About (Understanding CNNs Part 3), su adeshpande3.github.io.

[6] High Performance Convolutional Neural Networks for Document Processing, in Tenth International Workshop on Frontiers in Handwriting Recognition, Suvisoft, 2006.

[flexible-7] Dan Cireșan, Flexible, High Performance Convolutional Neural Networks for Image Classification (PDF), in Proceedings of the Twenty-Second International Joint Conference on Artificial Intelligence-Volume Volume Two, vol. 2, 2011, pp. 1237–1242.

[8] (EN) IJCNN 2011 Competition result table, su benchmark.ini.rub.de, 2010.

[9] (EN) History of computer vision contests won by deep CNNs on GPU, su people.idsia.ch, 17 March 2017.

[schdeepscholar-10] Deep Learning, in Scholarpedia, vol. 10, n. 11, 2015, pp. 1527–54, DOI:10.1162/neco.2006.18.7.1527.

[mcdns-11] Multi-column deep neural networks for image classification, New York, NY, Institute of Electrical and Electronics Engineers (IEEE), June 2012, pp. 3642–3649, DOI:10.1109/CVPR.2012.6248110, ISBN 978-1-4673-1226-4.

[LeCun_Boser_Denker_Henderson_1989_pp._541–551-12] Y. LeCun, Backpropagation Applied to Handwritten Zip Code Recognition (PDF), in Neural Computation, vol. 1, n. 4, MIT Press - Journals, 1989, pp. 541–551, DOI:10.1162/neco.1989.1.4.541.

[lecun98-13] Yann LeCun, Gradient-based learning applied to document recognition (PDF), in Proceedings of the IEEE, vol. 86, n. 11, 1998, pp. 2278–2324, DOI:10.1109/5.726791.

[fukuneoscholar-14] Neocognitron, in Scholarpedia, vol. 2, n. 1, 2007, DOI:10.4249/scholarpedia.1717.

[intro-15] Kunihiko Fukushima, Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position (PDF), in Biological Cybernetics, vol. 36, n. 4, 1980, pp. 193–202, DOI:10.1007/BF00344251.

[weng1993-16] Learning recognition and segmentation of 3-D objects from 2-D images, in Proc. 4th International Conf. Computer Vision, 1993, pp. 121–128.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

AlexNet: differenze tra le versioni

Versione delle 18:47, 22 apr 2023

Architettura

Precursori

Note

Menu di navigazione

Ricerca