Utente:Recursing/Allineamento dell'intelligenza artificiale

La ricerca sull'allineamento dell'intelligenza artificiale mira a indirizzare i sistemi di intelligenza artificiale (IA) verso gli obiettivi e gli interessi dei loro sviluppatori.^[1]

Un sistema di intelligenza artificiale allineato porta avanti gli obiettivi previsti dai suoi creatori; un sistema di intelligenza artificiale disallineato è competente nel portare avanti qualche obiettivo, ma non quelli previsti.^[2] La distinzione tra IA disallineata e IA incompetente è stata formalizzata in determinati contesti.^[3]

L'allineamento di sistemi di intelligenza artificiale può essere difficile. I sistemi non allineati possono funzionare male o causare danni. Per i progettisti di IA può essere difficile specificare l'intera gamma di comportamenti desiderati e indesiderati. Se quindi si utilizzano obiettivi più facili da specificare che omettono alcuni vincoli desiderati, i sistemi di IA possono sfruttare le limitazioni che ne derivano. Di conseguenza, tali sistemi raggiungono i loro obiettivi in modo efficiente, ma in modi non voluti e talvolta dannosi ("reward hacking"). ^[2] ^[4] ^[5] ^[6]

I sistemi di intelligenza artificiale possono anche sviluppare comportamenti indesiderati, come accumulare risorse, poiché sono strumentali nel raggiungere i loro obiettivi. ^[2] ^[7] ^[5] ^[4] Inoltre, possono sviluppare obiettivi emergenti che possono essere difficili da individuare prima che il sistema venga impiegato, quando si trova ad affrontare nuove situazioni e distribuzioni di dati. ^[5] ^[3]

Questi problemi interessano i sistemi commerciali esistenti come robot, ^[8] modelli linguistici, ^[9] ^[10] ^[11] veicoli autonomi, ^[12] e sistemi di raccomandazione dei contenuti sui social media. ^[9] ^[4] ^[13] Sistemi futuri più potenti potrebbero essere più soggetti a questi problemi, siccome derivano in parte dall'elevata capacità dei sistemi. ^[6] ^[2]

La comunità di ricerca sull'IA e le Nazioni Unite hanno chiesto ricerca tecnica e soluzioni politiche per garantire che i sistemi di intelligenza artificiale siano allineati con i valori umani. Il rapporto del Segretario Generale delle Nazioni Unite “Our Common Agenda“, ^[14] rileva che “potrebbe anche promuovere la regolamentazione dell'intelligenza artificiale per garantire che sia in linea con i valori globali condivisi" e discute i rischi catastrofici globali derivanti dagli sviluppi tecnologici.

L'allineamento dell'IA è un sottocampo della sicurezza dell'IA, lo studio di come costruire sistemi di intelligenza artificiale sicuri. ^[15] Gli obiettivi di questo campo di ricerca includono l'instillazione di valori complessi nell'IA, lo sviluppo di un'IA onesta, una supervisione scalabile, l'interpretazione dei modelli di intelligenza artificiale e la prevenzione di comportamenti emergenti dell'IA come la ricerca del potere. ^[5] ^[16] La ricerca sull'allineamento ha collegamenti con la ricerca sull'interpretabilità, ^[17] ^[18] robustezza, ^[5] ^[15] rilevamento di anomalie, ^[17] verifica formale, ^[19] apprendimento delle preferenze, ^[20] ^[21] ^[22] sicurezza - ingegneria critica, ^[5] teoria dei giochi, ^[23] ^[24] equità algoritmica, ^[15] ^[25] e scienze sociali, ^[26] tra gli altri.

Il problema dell'allineamento

File:Misaligned boat racing AI crashes to collect points instead of finishing the race.ogg

Un sistema di intelligenza artificiale che avrebbe dovuto completare una gara ha invece imparato che poteva accumulare più punti schiantandosi continuamente contro i bersagli: un esempio di "reward hacking".^[27]

Nel 1960, il pioniere dell'IA Norbert Wiener ha descritto il problema dell'allineamento in questo modo: "Se utilizziamo, per raggiungere i nostri scopi, un agente meccanico (mi convince poco. originale mechanical agency) con il cui funzionamento non possiamo interferire efficacemente... è meglio essere sicuri che lo scopo inserito nella macchina sia quello che desideriamo veramente". L'allineamento dell'IA è un problema aperto per i moderni sistemi di IA e un campo di ricerca.

[[Categoria:Neuroscienze computazionali]] [[Categoria:Intelligenza artificiale]]

^ Iason Gabriel, Artificial Intelligence, Values, and Alignment, in Minds and Machines, vol. 30, n. 3, 1º settembre 2020, pp. 411–437, DOI:10.1007/s11023-020-09539-2. URL consultato il 23 luglio 2022.
^ ^a ^b ^c ^d 4th, 2020, pp. 31–34, ISBN 978-1-292-40113-3, OCLC 1303900751, https://www.pearson.com/us/higher-education/program/Russell-Artificial-Intelligence-A-Modern-Approach-4th-Edition/PGM1263338.html. Errore nelle note: Tag <ref> non valido; il nome ":92" è stato definito più volte con contenuti diversi
^ ^a ^b vol. 162. Errore nelle note: Tag <ref> non valido; il nome "goal_misgen" è stato definito più volte con contenuti diversi
^ ^a ^b ^c 2020, ISBN 9780525558637, OCLC 1113410915, https://www.penguinrandomhouse.com/books/566677/human-compatible-by-stuart-russell/. Errore nelle note: Tag <ref> non valido; il nome ":210" è stato definito più volte con contenuti diversi
^ ^a ^b ^c ^d ^e ^f Template:Cite arXiv
^ ^a ^b https://openreview.net/forum?id=JYtwGwIL7ye. Errore nelle note: Tag <ref> non valido; il nome ":1522" è stato definito più volte con contenuti diversi
^ Template:Cite arXiv
^ vol. 32, DOI:10.1177/0278364913495721, https://oadoi.org/10.1177/0278364913495721.
^ ^a ^b
^ Template:Cite arXiv
^ openai.com, https://openai.com/blog/openai-codex/ Titolo mancante per url url (aiuto).
^
^ vol. 3, DOI:10.1007/s42413-020-00086-3, https://oadoi.org/10.1007/s42413-020-00086-3.
^ Template:Cite report
^ ^a ^b ^c Template:Cite arXiv
^ deepmindsafetyresearch.medium.com, https://deepmindsafetyresearch.medium.com/building-safe-artificial-intelligence-52f5f75058f1 Titolo mancante per url url (aiuto).
^ ^a ^b quantamagazine.org, https://www.quantamagazine.org/researchers-glimpse-how-ai-gets-so-good-at-language-processing-20220414/ Titolo mancante per url url (aiuto).
^ Template:Cite arXiv
^ vol. 36, DOI:10.1609/aimag.v36i4.2577, https://oadoi.org/10.1609/aimag.v36i4.2577.
^ vol. 18.
^ ISBN 978-1-5108-6096-4.
^ technologyreview.com, https://www.technologyreview.com/2022/01/27/1044398/new-gpt3-openai-chatbot-language-model-ai-toxic-misinformation/ Titolo mancante per url url (aiuto).
^ longtermrisk.org, https://longtermrisk.org/research-agenda/ Titolo mancante per url url (aiuto).
^ vol. 593, DOI:10.1038/d41586-021-01170-0, https://oadoi.org/10.1038/d41586-021-01170-0.
^ DOI:10.1145/3375627.3375803, https://oadoi.org/10.1145/3375627.3375803.
^ vol. 4, DOI:10.23915/distill.00014, https://oadoi.org/10.23915/distill.00014.
^ (EN) OpenAI, https://openai.com/blog/faulty-reward-functions/ Titolo mancante per url url (aiuto). URL consultato il 10 settembre 2022.

[Gabriel2020-1] Iason Gabriel, Artificial Intelligence, Values, and Alignment, in Minds and Machines, vol. 30, n. 3, 1º settembre 2020, pp. 411–437, DOI:10.1007/s11023-020-09539-2. URL consultato il 23 luglio 2022.

[:92-2] 4th, 2020, pp. 31–34, ISBN 978-1-292-40113-3, OCLC 1303900751, https://www.pearson.com/us/higher-education/program/Russell-Artificial-Intelligence-A-Modern-Approach-4th-Edition/PGM1263338.html. Errore nelle note: Tag <ref> non valido; il nome ":92" è stato definito più volte con contenuti diversi

[goal_misgen-3] vol. 162. Errore nelle note: Tag <ref> non valido; il nome "goal_misgen" è stato definito più volte con contenuti diversi

[:210-4] 2020, ISBN 9780525558637, OCLC 1113410915, https://www.penguinrandomhouse.com/books/566677/human-compatible-by-stuart-russell/. Errore nelle note: Tag <ref> non valido; il nome ":210" è stato definito più volte con contenuti diversi

[:010-5] ^ ^a ^b ^c ^d ^e ^f Template:Cite arXiv

[:1522-6] ttps://openreview.net/forum?id=JYtwGwIL7ye. Errore nelle note: Tag <ref> non valido; il nome ":1522" è stato definito più volte con contenuti diversi

[:75-7] Template:Cite arXiv

[8] vol. 32, DOI:10.1177/0278364913495721, https://oadoi.org/10.1177/0278364913495721.

[:625-9] ^ ^a ^b

[:42-10] Template:Cite arXiv

[:113-11] .com, https://openai.com/blog/openai-codex/ Titolo mancante per url url (aiuto).

[12] ^

[13] vol. 3, DOI:10.1007/s42413-020-00086-3, https://oadoi.org/10.1007/s42413-020-00086-3.

[14] Template:Cite report

[:110-15] Template:Cite arXiv

[:2323-16] safetyresearch.medium.com, https://deepmindsafetyresearch.medium.com/building-safe-artificial-intelligence-52f5f75058f1 Titolo mancante per url url (aiuto).

[:33-17] quantamagazine.org, https://www.quantamagazine.org/researchers-glimpse-how-ai-gets-so-good-at-language-processing-20220414/ Titolo mancante per url url (aiuto).

[18] Template:Cite arXiv

[:6-19] vol. 36, DOI:10.1609/aimag.v36i4.2577, https://oadoi.org/10.1609/aimag.v36i4.2577.

[:122-20] vol. 18.

[:162-21] ISBN 978-1-5108-6096-4.

[:53-22] technologyreview.com, https://www.technologyreview.com/2022/01/27/1044398/new-gpt3-openai-chatbot-language-model-ai-toxic-misinformation/ Titolo mancante per url url (aiuto).

[23] termrisk.org, https://longtermrisk.org/research-agenda/ Titolo mancante per url url (aiuto).

[24] vol. 593, DOI:10.1038/d41586-021-01170-0, https://oadoi.org/10.1038/d41586-021-01170-0.

[25] DOI:10.1145/3375627.3375803, https://oadoi.org/10.1145/3375627.3375803.

[26] vol. 4, DOI:10.23915/distill.00014, https://oadoi.org/10.23915/distill.00014.

[:2-27] (EN) OpenAI, https://openai.com/blog/faulty-reward-functions/ Titolo mancante per url url (aiuto). URL consultato il 10 settembre 2022.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

Utente:Recursing/Allineamento dell'intelligenza artificiale

Il problema dell'allineamento

Menu di navigazione

Ricerca