GPT-3

Da Wikipedia, l'enciclopedia libera.
Jump to navigation Jump to search
Generative Pre-trained Transformer 3 (GPT-3)
software
GenereIntelligenza artificiale (non in lista)
SviluppatoreOpenAI
Data prima versione28 maggio 2020
Ultima versione175B
Sistema operativoCloud Computing (non in lista)
Licenzalicenza proprietaria
(licenza non libera)
Sito webgithub.com/openai/gpt-3

Generative Pre-trained Transformer 3 (GPT-3; GPT·3 stilizzato) è un modello linguistico autoregressivo che utilizza l'apprendimento profondo per produrre testo simile al linguaggio naturale umano.

L'architettura si basa su una rete neurale artificiale di tipo Transformer con 175 miliardi di parametri, che richiedono 800 GB di memoria per l'esecuzione. Il metodo di apprendimento è detto "pre-addestramento generativo", e ha lo scopo di fornire al sistema la capacità di prevedere quale sarà la prossima parola nell'ambito di una frase o di un insieme di frasi. Il modello ha dimostrato un apprendimento rapido su molte attività basate su testo.

È il modello di terza generazione della serie GPT-n (successore di GPT-2) creato da OpenAI, un laboratorio di ricerca sull'intelligenza artificiale con sede a San Francisco.[1] La versione completa di GPT-3 ha una capacità di 175 miliardi di parametri di apprendimento automatico. GPT-3, introdotto a maggio 2020 [2], segue il trend dei sistemi di elaborazione del linguaggio naturale (NLP) delle rappresentazioni linguistiche pre-addestrate.

La qualità del testo generato da GPT-3 è talmente alta che può essere difficile determinare se è stato scritto o meno da un essere umano, il che presenta sia vantaggi che rischi.[3] Trentuno ricercatori e ingegneri di OpenAI hanno presentato il documento originale che introduceva GPT-3 il 28 maggio 2020. Nell'articolo hanno avvertito dei potenziali pericoli di GPT-3 e hanno suggerito ulteriori ricerche per analizzare e mitigare il rischio. Il filosofo australiano  David Chalmers ha descritto GPT-3 come "uno dei più interessanti e importanti sistemi di intelligenza artificiale mai prodotti".[4]

Microsoft ha annunciato il 22 settembre 2020 di avere una licenza l'uso "esclusivo" di GPT-3; altri enti o utilizzatori finali possono ancora utilizzare le API (Application Programming Interface) pubbliche per ricevere l'output, ma solo Microsoft ha accesso al modello sottostante di GPT-3.[5]

Una recensione del New York Times dell'aprile 2022 ha descritto alcune capacità di GPT-3, come scrivere una prosa originale con una fluidità equivalente a quella di un essere umano.[6]

Altri modelli di intelligenza artificiale utilizzano versioni modificate di GPT-3 per generare immagini partendo da un frase in lingua inglese, in particolare DALL-E e DALL-E 2.

Esordi[modifica | modifica wikitesto]

Secondo The Economist, algoritmi perfezionati, computer più potenti e l'aumento dei dati digitalizzati disponibili da Internet, hanno alimentato la rivoluzione nell'apprendimento automatico, con nuove tecniche introdotte negli anni 2010 che hanno portato a "rapidi miglioramenti nelle attività", inclusa la manipolazione del linguaggio.[7] I modelli vengono addestrati all'apprendimento utilizzando migliaia o milioni di esempi in una "struttura ... liberamente basata sull'architettura neurale del cervello".[7] Una delle architetture utilizzate nell'elaborazione del linguaggio naturale (NLP) è la rete neurale basata sul modello di deep learning introdotto per la prima volta nel 2017: il Transformer. I modelli GPT-n si basano su questa architettura di rete neurale ad apprendimento profondo. Esistono numerosi sistemi NLP in grado di elaborare, estrarre, organizzare, collegare e contrastare l'input testuale, oltre a rispondere correttamente alle domande.[8]

L'11 giugno 2018, ricercatori e ingegneri di OpenAI hanno pubblicato il loro articolo originale sui modelli linguistici generativi che potrebbero essere pre-addestrati con un corpus di testo enorme e diversificato tramite insiemi di dati, in un processo che hanno chiamato "pre-allenamento generativo".[9] Gli autori hanno descritto come le prestazioni nella comprensione del linguaggio naturale sono state migliorate in GPT-n attraverso un processo di "pre-allenamento generativo" di un modello linguistico su un corpus diversificato di testo non etichettato, seguito da una messa a punto discriminativa su ogni specifico compito. Ciò ha eliminato la necessità della supervisione umana e dell'etichettatura manuale che richiede molto tempo.[9]

Nel febbraio 2020 Microsoft ha introdotto il modello Turing Natural Language Generation (T-NLG), definito all'epoca il "modello linguistico più grande mai pubblicato, con 17 miliardi di parametri".[10].

Apprendimento e capacità[modifica | modifica wikitesto]

Il 28 maggio 2020, un preprint arXiv del gruppo di 31 ingegneri e ricercatori di OpenAI ha descritto lo sviluppo di GPT-3 come un "modello linguistico all'avanguardia" di terza generazione.[3] Il team ha aumentato la capacità di GPT-3 di oltre due ordini di grandezza rispetto a quella del suo predecessore, GPT-2,[11] rendendo GPT-3 il più grande modello linguistico non-sparso fino ad oggi. In un modello sparso, molti dei suoi parametri sono impostati su un valore costante, quindi anche se ci sono più parametri totali, ci sono informazioni meno significative.  [1][12] Poiché GPT-3 è strutturalmente simile ai suoi predecessori, la sua maggiore precisione è attribuita alla sua maggiore capacità e al maggior numero di parametri.[12] La capacità di GPT-3 è dieci volte superiore a quella di Turing NLG di Microsoft, che era il secondo modello NLP più grande nel 2020.[3]

Il 60% del set di dati di pre-allenamento ponderato di GPT-3 proviene da una versione filtrata dell'intero web dal 2011 al 2021, detta "Common Crawl" e composta da 410 miliardi di token "codificati a coppie di byte" [9].  Altre fonti sono: 19 miliardi di token di WebText2 che rappresentano il 22% del totale ponderato; 12 miliardi di token della libreria Books1 che rappresentano l'8%; 55 miliardi di token della libreria Books2 che rappresentano l'8% e 3 miliardi di token di Wikipedia che rappresentano il 3%.  GPT-3 è stato addestrato su centinaia di miliardi di parole ed è anche in grado di creare codice di programmazione in formato CSS, JavaScript eXtension e linguaggio Python, tra gli altri.[2] Una revisione del 2022 ha nuovamente evidenziato che l'addestramento continua per includere le revisioni di Wikipedia.[6]

Dati di addestramento di GPT-3:
Set di dati Numero di Token Peso nel mix di addestramento
Common Crawl 410 miliardi 60%
WebText2 19 miliardi 22%
Books1 12 miliardi 8%
Books2 55 miliardi 8%
Wikipedia 3 miliardi 3%

Poiché i dati di addestramento di GPT-3 erano onnicomprensivi, non serve un'ulteriore formazione per compiti linguistici distinti.[2] I dati di addestramento contengono occasionalmente un linguaggio "tossico", pertanto GPT-3 può occasionalmente generare 'linguaggio tossico' come risultato dell'imitazione dei suoi dati di addestramento. Uno studio dell'Università di Washington ha scoperto che GPT-3 produceva linguaggio tossico a un livello di tossicità paragonabile ai modelli di GPT-2 e CTRL. GPT-3 ha prodotto un linguaggio meno tossico rispetto al precedente GPT-1, ma maggiore rispetto a CTRL Wiki, un modello linguistico addestrato interamente sui dati di Wikipedia.[13]

GPT-3 è in grado di eseguire l'apprendimento "zero-shot", "few-shot" e "one-shot".

L'11 giugno 2020, OpenAI ha annunciato che le persone potevano richiedere l'accesso alle API di GPT-3, quale "set di strumenti di apprendimento automatico", per aiutare OpenAI a "esplorare i punti di forza e i limiti" di questa nuova tecnologia.[14][15] L'invito descriveva come queste API avessero un'interfaccia generica "text in, text out" in grado di completare quasi "qualsiasi attività in lingua inglese", invece del solito caso d'uso singolo.[14] Secondo un utente, che aveva accesso a una prima versione privata delle API, GPT-3 era "stranamente bravo" a scrivere "testo sorprendentemente coerente" con solo pochi semplici suggerimenti.[16] In un esperimento iniziale, a 80 soggetti statunitensi è stato chiesto di giudicare se brevi articoli di circa 200 parole fossero stati scritti da esseri umani oppure da GPT-3. I partecipanti hanno giudicato correttamente il 52% dei casi, leggermente meglio che fare delle supposizioni aleatorie.

Poiché GPT-3 può "generare articoli di notizie che i valutatori umani hanno difficoltà a distinguere dagli articoli scritti da uomini",[3] GPT-3 ha il "potenziale per far progredire le applicazioni dei modelli linguistici sia benefiche che dannose " [34]. Nel loro articolo del 28 maggio 2020, i ricercatori hanno descritto in dettaglio i potenziali "effetti dannosi di GPT-3" [3] che includono "disinformazione, spam, phishing, abuso di processi legali e governativi, scrittura di saggi accademici fraudolenti e scritti pretestuosi per l'ingegneria sociale". Gli autori richiamano l'attenzione su questi pericoli chiedendo ulteriori studi sulla mitigazione del rischio.

Nel giugno 2022, Almira Osmanovic Thunström ha scritto che GPT-3 era l'autore principale di un articolo su se stesso, inviato per la pubblicazione accademica [17] e che era stato pre-pubblicato in attesa del completamento della sua revisione.[18]

Ricezione[modifica | modifica wikitesto]

Applicazioni[modifica | modifica wikitesto]

  • GPT-3, in particolare il modello Codex, è alla base del GitHub Copilot, un software di completamento e generazione del codice che può essere utilizzato in vari editor di codice e IDE (ambienti di sviluppo software).
  • GPT-3 viene utilizzato in alcuni prodotti Microsoft per tradurre il linguaggio naturale in codice di programmazione formale.[19]
  • GPT-3 è alla base del modello di apprendimento di DALL-E che genera immagini digitali partendo da una descrizione in linguaggio naturale. DALL-E è stato pubblicato da OpenAI nel gennaio del 2021; il suo successore, DALL-E 2 è stato rilasciato nell'aprile del 2022 e riesce a produrre immagini incredibilmente sofisticate, ad alta risoluzione, che combinano diversi stili pittorici e altri attributi.
  • GPT-3 è stato utilizzato da Andrew Mayne per "AI Writer",[20] che consente alle persone di corrispondere con dei personaggi storici via e-mail.
  • GPT-3 è stato utilizzato da Jason Rohrer in un progetto di chatbot a tema rétro chiamato "Project December", che è accessibile online e consente agli utenti di conversare con diverse IA utilizzando la tecnologia GPT-3.[21]
  • GPT-3 è stato utilizzato da The Guardian per scrivere un articolo sull'intelligenza artificiale che sia innocua per gli esseri umani. È stato alimentato con alcune idee e ha prodotto otto diversi saggi, che alla fine sono stati fusi in un solo articolo.[22]
  • GPT-3 è stato utilizzato in "AI Dungeon", che genera giochi di avventura basati su testo. Successivamente è stato sostituito da un modello concorrente dopo che OpenAI ha cambiato la propria politica in merito ai contenuti generati.[23]

Recensioni[modifica | modifica wikitesto]

  • In una recensione del luglio 2020 sul New York Times, Farhad Manjoo ha affermato che la capacità di GPT-3 di generare codice informatico, poesia e prosa non è solo "sorprendente", "spettrale" e "umiliante", ma anche "un poco più che terrificante".[24]
  • Daily Nous ha presentato una serie di articoli di nove filosofi sul GPT-3.[25]
  • Una recensione su Wired nel 2020 ha affermato che GPT-3 stava "provocando brividi in tutta la Silicon Valley ".[26]
  • La National Law Review ha affermato che GPT-3 è un "passo impressionante di un processo più ampio", con OpenAI e altri che trovano "applicazioni utili grazie a questi potenti modelli" mentre continuano a "lavorare per un'intelligenza artificiale più generale ".[27]
  • Un articolo del MIT Technology Review, scritto in collaborazione con Gary Marcus [28], critico del deep learning, afferma che la "comprensione del mondo di GPT-3 spesso è seriamente sbagliata, il che significa che non ci si può mai davvero fidare di ciò che dice".[29] Secondo gli autori, GPT-3 modella le relazioni tra le parole senza avere una comprensione del significato dietro ogni parola.
  • Jerome Pesenti, capo del laboratorio di intelligenza artificiale di Meta (Facebook), ha affermato che GPT-3 è "non sicuro", indicando il linguaggio sessista, razzista e con altri pregiudizi negativi quando gli è stato chiesto di discutere di ebrei, donne, persone di colore e di Olocausto.[30]
  • Nabla, una start-up francese specializzata in tecnologia sanitaria, ha testato GPT-3 come chatbot medico, sebbene la stessa OpenAI abbia messo in guardia contro tale uso. Come previsto, GPT-3 ha mostrato diverse limitazioni. Ad esempio, durante il test delle risposte sui problemi di salute mentale, GPT-3 ha consigliato ad un paziente simulato di suicidarsi.[31]
  • Noam Chomsky ha espresso il suo scetticismo sul valore scientifico di GPT-3: "Non è un modello linguistico. Funziona altrettanto bene per le lingue impossibili come per le lingue reali. Viene quindi confutato, se inteso come modello linguistico, dai normali criteri scientifici. [...] Forse è utile per qualche scopo, ma sembra non dirci nulla sul linguaggio o sulla cognizione in generale." [32]
  • Luciano Floridi e Massimo Chiriatti hanno evidenziato il rischio della "produzione a buon mercato di buoni manufatti semantici".[33]

Critica[modifica | modifica wikitesto]

Il costruttore di GPT-3, OpenAI, è stato inizialmente fondato come organizzazione no-profit nel 2015.[34] Nel 2019, OpenAI non ha rilasciato pubblicamente il modello precursore di GPT-3, rompendo con le precedenti pratiche open source di OpenAI, adducendo la preoccupazione che il modello avrebbe perpetuato notizie false. OpenAI alla fine ha rilasciato una versione di GPT-2 che era l'8% delle dimensioni del modello originale.[35] Nello stesso anno, OpenAI si è ristrutturata per essere una società a scopo di lucro.[36] Nel 2020, Microsoft ha annunciato che la società aveva la licenza esclusiva di GPT-3 per i prodotti e servizi di Microsoft a seguito di un investimento multimiliardario in OpenAI. L'accordo consente a OpenAI di offrire un'API rivolta al pubblico in modo tale che gli utenti possano inviare testo a GPT-3 per ricevere l'output del modello, ma solo Microsoft avrà accesso al codice sorgente di GPT-3.[5]

Modelli linguistici di grandi dimensioni, come GPT-3, sono stati oggetto di critiche da parte dei ricercatori di Google sull'etica dell'IA per l'impatto ambientale (consumo energetico) che richiede la fase di apprendimento e della memorizzazione dei modelli, dettagliati in un documento del 2021 di Timnit Gebru, Emily M. Bender e altri.[37]

Il crescente uso di tecnologie di scrittura automatizzate, quali GPT-3 e altri, ha sollevato preoccupazioni riguardo l'integrità accademica [38] e aumentato la posta in gioco su come le università e le scuole valuteranno ciò che costituisce una cattiva condotta accademica come il plagio.[39]

GPT-3 è stato criticato per il suo "bias algoritmico": per esempio, è più probabile che associ l'Islam al terrorismo e le persone di colore al crimine.[40]

Nella sua risposta alla richiesta di commenti sulla protezione della proprietà intellettuale per l'innovazione nell'intelligenza artificiale dell'Ufficio brevetti e marchi degli Stati Uniti ("USPTO"), OpenAI riconosce che "la protezione del copyright sorge automaticamente quando un autore crea un'opera originale e la corregge in modo tangibile, la stragrande maggioranza dei contenuti pubblicati online è protetta dalle leggi sul copyright degli Stati Uniti.[41] GPT è stato creato con i dati del Common Crawl, un conglomerato di articoli protetti da copyright, post su Internet, pagine Web e libri estratti da 60 milioni di domini in un periodo di circa 10 anni (2011-2021). TechCrunch afferma che questi dati di apprendimento includono materiale protetto da copyright, ad esempio della BBC, del The New York Times, di Reddit, il testo completo di libri online e altro ancora.[42] Nell'aprile 2021, un gruppo di informatici ha utilizzato uno strumento che identifica il testo generato da GPT nel tentativo di comprendere e isolare il motivo della comparsa di strane frasi negli articoli scientifici. Cabanac e colleghi hanno eseguito una selezione di abstract della rivista "Microprocessors and Microsystems" e hanno scoperto "difetti critici", come testo senza senso, oppure testo e immagini plagiate.[43]

Note[modifica | modifica wikitesto]

  1. ^ a b https://www.cnbc.com/2020/07/23/openai-gpt3-explainer.html. Four preprints were released between May 28 and July 22, 2020.
  2. ^ a b c towardsdatascience.com, https://towardsdatascience.com/will-gpt-3-kill-coding-630e4518c04d. URL consultato il 1º agosto 2020.
  3. ^ a b c d e Ram Sagar, OpenAI Releases GPT-3, The Largest Model So Far, in Analytics India Magazine, 3 giugno 2020. URL consultato il 31 luglio 2020.
  4. ^ https://dailynous.com/2020/07/30/philosophers-gpt-3/#chalmers.
  5. ^ a b (EN) Karen Hao, OpenAI is giving Microsoft exclusive access to its GPT-3 language model, in MIT Technology Review, 23 settembre 2020. URL consultato il 25 settembre 2020.
    «"The companies say OpenAI will continue to offer its public-facing API, which allows chosen users to send text to GPT-3 or OpenAI's other models and receive its output. Only Microsoft, however, will have access to GPT-3's underlying code, allowing it to embed, repurpose, and modify the model as it pleases."»
  6. ^ a b The New York Times, https://www.nytimes.com/2022/04/15/magazine/ai-language.html.
  7. ^ a b The Economist, ISSN 0013-0613 (WC · ACNP), https://www.economist.com/technology-quarterly/2020/06/11/an-understanding-of-ais-limitations-is-starting-to-sink-in.
  8. ^ thomsonreuters.com, https://www.thomsonreuters.com/en/artificial-intelligence/natural-language-processing.html. URL consultato il 31 luglio 2020.
  9. ^ a b c cdn.openai.com, https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf. URL consultato il 31 luglio 2020.
  10. ^ Bruce Sterling, Web Semantics: Microsoft Project Turing introduces Turing Natural Language Generation (T-NLG), in Wired, 13 febbraio 2020. URL consultato il 31 luglio 2020.
  11. ^ openai.com, https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf. URL consultato il 4 dicembre 2019.
    «"GPT-2, is a 1.5B parameter Transformer"»
  12. ^ a b zdnet.com, https://www.zdnet.com/article/openais-gigantic-gpt-3-hints-at-the-limits-of-language-models-for-ai/. URL consultato il 31 luglio 2020.
  13. ^ arXiv:2009.11462, https://arxiv.org/abs/2009.11462.
  14. ^ a b openai.com, https://openai.com/blog/openai-api/.
  15. ^ techcrunch.com, https://techcrunch.com/2020/06/11/openai-makes-an-all-purpose-api-for-its-text-based-ai-capabilities/. URL consultato il 31 luglio 2020.
    «If you've ever wanted to try out OpenAI's vaunted machine learning toolset, it just got a lot easier. The company has released an API that lets developers call its AI tools in on "virtually any English language task."»
  16. ^ arr.am, https://arr.am/2020/07/09/gpt-3-an-ai-thats-eerily-good-at-writing-almost-anything/. URL consultato il 31 luglio 2020.
  17. ^ Scientific American, https://www.scientificamerican.com/article/we-asked-gpt-3-to-write-an-academic-paper-about-itself-then-we-tried-to-get-it-published/. URL consultato il 30 giugno 2022.
  18. ^ (FR) Archive ouverte HAL, https://hal.archives-ouvertes.fr/hal-03701250. URL consultato il 30 giugno 2022.
  19. ^ The AI Blog, https://blogs.microsoft.com/ai/from-conversation-to-code-microsoft-introduces-its-first-product-features-powered-by-gpt-3/.
  20. ^ aiwriter.app, https://www.aiwriter.app/.
  21. ^ https://www.sfchronicle.com/projects/2021/jessica-simulation-artificial-intelligence/.
  22. ^ ISSN 0261-3077 (WC · ACNP), https://www.theguardian.com/commentisfree/2020/sep/08/robot-wrote-this-article-gpt-3.
  23. ^ Latitude blog, https://latitude.io/blog/update-language-models.
  24. ^ ISSN 0362-4331 (WC · ACNP), https://www.nytimes.com/2020/07/29/opinion/gpt-3-ai-automation.html?.
  25. ^ dailynous.com, http://dailynous.com/2020/07/30/philosophers-gpt-3/. URL consultato il 31 luglio 2020.
  26. ^ Tom Simonite, Did a Person Write This Headline, or a Machine?, in Wired, 22 luglio 2020. URL consultato il 31 luglio 2020.
  27. ^ natlawreview.com, vol. 10, n. 214, https://www.natlawreview.com/article/new-ai-tool-gpt-3-ascends-to-new-peaks-proves-how-far-we-still-need-to-travel. URL consultato il 4 agosto 2020.
  28. ^ (EN) Medium, https://medium.com/@GaryMarcus/the-deepest-problem-with-deep-learning-91c5991f5695. URL consultato il 29 settembre 2020.
  29. ^ Gary Marcus e Ernest Davis, GPT-3, Bloviator: OpenAI's language generator has no idea what it's talking about, in MIT Technology Review, 22 agosto 2020. URL consultato il 23 agosto 2020.
  30. ^ (EN) ISSN 0362-4331 (WC · ACNP), https://www.nytimes.com/2020/11/24/science/artificial-intelligence-ai-gpt3.html.
  31. ^ (EN) AI News, https://artificialintelligence-news.com/2020/10/28/medical-chatbot-openai-gpt3-patient-kill-themselves/. URL consultato l'8 gennaio 2021.
  32. ^ Filmato audio https://www.youtube.com/watch?v=c6MU5zQwtT4.
  33. ^ Luciano Floridi, GPT‑3: Its Nature, Scope, Limits, and Consequences, vol. 30, 1º novembre 2020, DOI:10.1007/s11023-020-09548-1.
  34. ^ https://techcrunch.com/2015/12/11/non-profit-openai-launches-with-backing-from-elon-musk-and-sam-altman/.
  35. ^ https://www.technologyreview.com/2019/08/29/133218/openai-released-its-fake-news-ai-gpt-2/.
  36. ^ https://techcrunch.com/2019/03/11/openai-shifts-from-nonprofit-to-capped-profit-to-attract-capital/.
  37. ^ DOI:10.1145/3442188.3445922.
  38. ^ (EN) The Conversation, http://theconversation.com/artificial-intelligence-is-getting-better-at-writing-and-universities-should-worry-about-plagiarism-160481.
  39. ^ (EN) vol. 13, DOI:10.1007/s40979-016-0013-y, ISSN 1833-2595 (WC · ACNP), https://oadoi.org/10.1007/s40979-016-0013-y.
  40. ^ techcrunch.com, https://techcrunch.com/2020/08/07/here-are-a-few-ways-gpt-3-can-go-wrong/. URL consultato il 28 novembre 2021.
  41. ^ https://www.uspto.gov/sites/default/files/documents/OpenAI_RFC-84-FR-58141.pdf.
  42. ^ https://techcrunch.com/2020/08/07/here-are-a-few-ways-gpt-3-can-go-wrong/.
  43. ^ vol. 596, DOI:10.1038/d41586-021-02134-0, PMID 34354273, https://oadoi.org/10.1038/d41586-021-02134-0.

Voci correlate[modifica | modifica wikitesto]

Collegamenti esterni[modifica | modifica wikitesto]