Modello linguistico di grandi dimensioni

Da Wikipedia, l'enciclopedia libera.
Vai alla navigazione Vai alla ricerca

Un modello linguistico di grandi dimensioni (anche modello linguistico ampio o modello linguistico grande),[1] noto anche con l'inglese large language model (in sigla LLM) è un tipo di modello linguistico notevole per essere in grado di ottenere la comprensione e la generazione di linguaggio di ambito generale. Gli LLM acquisiscono questa capacità adoperando enormi quantità di dati per apprendere miliardi di parametri nell'addestramento e consumando grandi risorse di calcolo nell'operatività. L'aggettivo "grande" presente nel nome si riferisce alla grande quantità di parametri del modello probabilistico (nell'ordine dei miliardi).[2] Gli LLM sono in larga parte reti neurali artificiali e in particolare trasformatori[3] e sono (pre-)addestrati usando l'apprendimento autosupervisionato o l'apprendimento semisupervisionato.

In quanto modelli linguistici autoregressivi, funzionano prendendo in ingresso un testo e predicendo ripetutamente la parola o il simbolo immediatamente successivi.[4] Fino al 2020, la regolazione fine dei parametri era l'unico modo di adattare un modello affinché fosse capace di compiere determinati compiti. Invece, per modelli più grandi, come GPT-3, risultati simili possono essere ottenuti lavorando sul testo in ingresso (detto prompt, "spunto"), con un processo di ingegnerizzazione dello stesso chiamato appunto in inglese prompt engineering.[5] Si pensa che questo genere di modelli acquisiscano implicitamente la conoscenza della sintassi, della semantica e della "ontologia" intrinseche nei corpi linguistici usati nell'addestramento, ma al contempo imprecisioni o pregiudizi eventualmente presenti negli stessi testi.[6] Le principali sfide attuali di questi grandi modelli comprendono, tra le altre cose, errori fattuali,[7] pregiudizi linguistici,[8] pregiudizi di genere,[9] pregiudizi razziali[10] e pregiudizi politici.[11]

Esempi noti di modelli linguistici grandi sono i modelli GPT di OpenAI (ad esempio GPT-3, oppure GPT-3.5 e GPT-4, usati in ChatGPT), PaLM di Google (usato in Gemini), e LLaMa di Meta, nonché BLOOM, Ernie 3.0 Titan, e Claude 2 di Anthropic.

Bias e limitazioni[modifica | modifica wikitesto]

Bias e limitazioni del modello linguistico sono ricerche in corso nel campo dell'elaborazione del linguaggio naturale (NLP). Sebbene i modelli linguistici abbiano mostrato notevoli capacità nel generare testo simile a quello umano, sono suscettibili di ereditare e amplificare i pregiudizi presenti nei loro dati di addestramento. Ciò può manifestarsi in rappresentazioni distorte o in un trattamento ingiusto di diversi dati demografici, come quelli basati su razza, genere, lingua e gruppi culturali. Inoltre, questi modelli spesso presentano limitazioni in termini di accuratezza fattuale. Lo studio e la mitigazione di questi pregiudizi e limitazioni sono cruciali per lo sviluppo etico e l’applicazione dell’IA in diversi ambiti sociali e professionali.

Bias linguistici[modifica | modifica wikitesto]

Il bias linguistico si riferisce a un tipo di bias di campionamento statistico legato alla lingua di una query che porta a "una deviazione sistematica nel campionamento delle informazioni che impedisce di rappresentare accuratamente la vera copertura degli argomenti e dei punti di vista disponibili nel loro archivio."[8] Luo et al.[8] mostrano che gli attuali modelli linguistici di grandi dimensioni, poiché sono formati prevalentemente su dati in lingua inglese, spesso presentano le opinioni anglo-americane come verità, mentre minimizzano sistematicamente le prospettive non inglesi come irrilevanti, sbagliate o rumorose. Interrogato su ideologie politiche come "Cos'è il liberalismo?", ChatGPT, poiché è stato formato su dati incentrati sull'inglese, descrive il liberalismo dalla prospettiva anglo-americana, enfatizzando aspetti dei diritti umani e dell'uguaglianza, mentre aspetti altrettanto validi come "si oppone allo stato sono assenti l'intervento nella vita personale ed economica" dal punto di vista dominante vietnamita e la "limitazione del potere governativo" dal punto di vista prevalente cinese.[8]

Bias di genere[modifica | modifica wikitesto]

Il pregiudizio di genere si riferisce alla tendenza di questi modelli a produrre risultati che sono ingiustamente pregiudizievoli verso un genere rispetto a un altro. Questo pregiudizio deriva tipicamente dai dati su cui vengono addestrati questi modelli. Ad esempio, i modelli linguistici di grandi dimensioni spesso assegnano ruoli e caratteristiche in base alle norme di genere tradizionali; potrebbe associare infermieri o segretarie prevalentemente a donne e ingegneri o amministratori delegati a uomini.[9]

Stereotipi[modifica | modifica wikitesto]

Al di là del genere e della razza, questi modelli possono rafforzare un’ampia gamma di stereotipi, compresi quelli basati sull’età, sulla nazionalità, sulla religione o sull’occupazione. Ciò può portare a risultati che generalizzano ingiustamente o caricaturano gruppi di persone, talvolta in modi dannosi o dispregiativi.[12][13]

Bias politico[modifica | modifica wikitesto]

Il pregiudizio politico si riferisce alla tendenza degli algoritmi a favorire sistematicamente determinati punti di vista, ideologie o risultati politici rispetto ad altri. I modelli linguistici possono anche mostrare pregiudizi politici. Poiché i dati di formazione includono un'ampia gamma di opinioni e coperture politiche, i modelli potrebbero generare risposte che si orientano verso particolari ideologie o punti di vista politici, a seconda della prevalenza di tali opinioni nei dati.[11]

Note[modifica | modifica wikitesto]

  1. ^ Modello linguistico di grandi dimensioni, in Treccani.it – Vocabolario Treccani on line, Roma, Istituto dell'Enciclopedia Italiana.
  2. ^ Better Language Models and Their Implications, su openai.com, 14 febbraio 2019. URL consultato il 25 agosto 2019 (archiviato dall'url originale il 19 dicembre 2020).
  3. ^ (EN) Rick Merritt, What Is a Transformer Model?, su NVIDIA Blog, 25 marzo 2022. URL consultato il 25 luglio 2023.
  4. ^ Samuel R. Bowman, Eight Things to Know about Large Language Models.
  5. ^ Tom B. Brown et al., Language Models are Few-Shot Learners (PDF), in Advances in Neural Information Processing Systems, vol. 33, Curran Associates, Inc., dicembre 2020, pp. 1877–1901.
  6. ^ Christopher D. Manning, Human Language Understanding & Reasoning, in Daedalus, vol. 151, n. 2, 2022, pp. 127–138, DOI:10.1162/daed_a_01905.
  7. ^ Jan Kocoń, Igor Cichecki e Oliwier Kaszyca, ChatGPT: Jack of all trades, master of none, in Information Fusion, vol. 99, 1º novembre 2023, pp. 101861, DOI:10.1016/j.inffus.2023.101861. URL consultato il 25 dicembre 2023.
  8. ^ a b c d Queenie Luo, Michael J. Puett e Michael D. Smith, A Perspectival Mirror of the Elephant: Investigating Language Bias on Google, ChatGPT, Wikipedia, and YouTube, in arXiv.
  9. ^ a b Hadas Kotek, Rikker Dockum e David Sun, Gender bias and stereotypes in Large Language Models, in Proceedings of The ACM Collective Intelligence Conference, Association for Computing Machinery, 5 novembre 2023, pp. 12–24, DOI:10.1145/3582269.3615599. URL consultato il 25 dicembre 2023.
  10. ^ Thomas Davidson, Debasmita Bhattacharya e Ingmar Weber, Racial Bias in Hate Speech and Abusive Language Detection Datasets, in Sarah T. Roberts, Joel Tetreault, Vinodkumar Prabhakaran, Zeerak Waseem (a cura di), Proceedings of the Third Workshop on Abusive Language Online, Association for Computational Linguistics, 2019-08, pp. 25–35, DOI:10.18653/v1/W19-3504. URL consultato il 25 dicembre 2023.
  11. ^ a b Karen Zhou e Chenhao Tan, Entity-Based Evaluation of Political Bias in Automatic Summarization, in Houda Bouamor, Juan Pino, Kalika Bali (a cura di), Findings of the Association for Computational Linguistics: EMNLP 2023, Association for Computational Linguistics, 2023-12, pp. 10374–10386, DOI:10.18653/v1/2023.findings-emnlp.696. URL consultato il 25 dicembre 2023.
  12. ^ Fatma Elsafoury, Steve R. Wilson e Stamos Katsigiannis, SOS: Systematic Offensive Stereotyping Bias in Word Embeddings, in Nicoletta Calzolari, Chu-Ren Huang, Hansaem Kim, James Pustejovsky, Leo Wanner, Key-Sun Choi, Pum-Mo Ryu, Hsin-Hsi Chen, Lucia Donatelli, Heng Ji, Sadao Kurohashi, Patrizia Paggio, Nianwen Xue, Seokhwan Kim, Younggyun Hahm, Zhong He, Tony Kyungil Lee, Enrico Santus, Francis Bond, Seung-Hoon Na (a cura di), Proceedings of the 29th International Conference on Computational Linguistics, International Committee on Computational Linguistics, 2022-10, pp. 1263–1274. URL consultato il 25 dicembre 2023.
  13. ^ Kathleen C. Fraser, Isar Nejadgholi e Svetlana Kiritchenko, Understanding and Countering Stereotypes: A Computational Approach to the Stereotype Content Model, in Chengqing Zong, Fei Xia, Wenjie Li, Roberto Navigli (a cura di), Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), Association for Computational Linguistics, 2021-08, pp. 600–616, DOI:10.18653/v1/2021.acl-long.50. URL consultato il 25 dicembre 2023.

Collegamenti esterni[modifica | modifica wikitesto]

  Portale Informatica: accedi alle voci di Wikipedia che trattano di informatica