Dilemma del prigioniero

Da Wikipedia, l'enciclopedia libera.
I due prigionieri coopereranno per ridurre al minimo la condanna di entrambi o uno dei due tradirà l'altro per minimizzare la propria?

Il dilemma del prigioniero è un gioco ad informazione completa proposto negli anni cinquanta del XX secolo da Albert Tucker come problema di teoria dei giochi. Oltre ad essere stato approfonditamente studiato in questo contesto, il "dilemma" è anche piuttosto noto al pubblico non tecnico come esempio di paradosso.

Il dilemma in sé, anche se usa l'esempio dei due prigionieri per spiegare il fenomeno, può descrivere altrettanto bene la corsa agli armamenti, proprio degli anni cinquanta, da parte di USA e URSS (i due prigionieri) durante la guerra fredda. [1]

Il dilemma[modifica | modifica sorgente]

Il dilemma può essere descritto come segue. Due criminali vengono accusati di aver commesso un reato. Gli investigatori li arrestano entrambi e li chiudono in due celle diverse, impedendo loro di comunicare. Ad ognuno di loro vengono date due scelte: confessare l'accaduto, oppure non confessare. Viene inoltre spiegato loro che:

  1. se solo uno dei due confessa, chi ha confessato evita la pena; l'altro viene però condannato a 7 anni di carcere.
  2. se entrambi confessano, vengono entrambi condannati a 6 anni.
  3. se nessuno dei due confessa, entrambi vengono condannati a 1 anno, perché comunque già colpevoli di porto abusivo di armi.

Questo gioco può essere descritto con la seguente bimatrice:

  confessa non confessa
confessa (6,6) (0,7)
non confessa (7,0) (1,1)

La miglior strategia di questo gioco non cooperativo è (confessa, confessa). Per ognuno dei due lo scopo è infatti di minimizzare la propria condanna; e ogni prigioniero:

confessando: rischia 0 o 6 anni
non confessando: rischia 1 o 7 anni

La strategia non confessa è strettamente dominata dalla strategia confessa. Eliminando le strategie strettamente dominate si arriva all'equilibrio di Nash, dove i due prigionieri confessano e hanno 6 anni di carcere. Il risultato migliore per i due ("ottimo paretiano") è naturalmente di non confessare (1 anno di carcere invece di 6), ma questo non è un equilibrio.

Supponiamo che i due si siano promessi di non confessare in caso di arresto. Sono ora rinchiusi in due celle diverse e si domandano se la promessa sarà mantenuta dall'altro; se un prigioniero non rispetta la promessa e l'altro sì, il primo è allora liberato. C'è dunque un dilemma: confessare o non confessare. La teoria dei giochi ci dice che c'è un solo equilibrio (confessa, confessa).

Se pensiamo agli Stati Uniti e all'URSS come ai due prigionieri, e alla confessione come l'armamento con l'atomica (per contro la negazione equivarrebbe al disarmo unilaterale), il dilemma descrive come per le due nazioni fosse inevitabile al tempo della guerra fredda la corsa agli armamenti, benché questo risultato finale fosse non ottimale per nessuna delle due superpotenze (e per l'intero mondo)[2].

Il paradosso[modifica | modifica sorgente]

Il dilemma del prigioniero ha causato interesse come esempio di gioco in cui l'assioma di razionalità pare apparentemente fallire, prescrivendo un'azione che procura più danno ad entrambi i contendenti della scelta alternativa (non confessa, non confessa). Gli studiosi di teoria dei giochi fanno notare che chi la pensa in questo modo probabilmente si immagina un gioco diverso, in cui la vittoria viene valutata sulla somma degli anni di carcere.

Ovvero il gioco:

  confessa non confessa
confessa (12) (7)
non confessa (7) (2)

È facile vedere che questo nuovo gioco, semplificando le strategie dominanti, ha come equilibrio (non confessa, non confessa), ovvero la scelta che conduce al miglior risultato possibile per entrambi.

Questa seconda formulazione (sommando gli anni di carcere) prevede che il prigioniero debba preferire il danno minore per la coppia ma non è questo il suo obiettivo nella formulazione originaria. In quella si suppone sia interessato solo ai rischi che corre personalmente.

Possibili soluzioni[modifica | modifica sorgente]

A questo punto ci si potrebbe domandare:

  • «È possibile che non esista alcuna conclusione logica che permetta al prigioniero di sperare di rimanere in prigione un solo anno o addirittura nessuno?»
  • «È possibile che la logica non giunga a nessun'altra soluzione oltre alla accettazione di venire condannati a 6 anni senza alcuna speranza?»

Una possibile soluzione è la seguente, ma richiede due precisazioni e non è universalmente accettata:

a) si deve dare per scontato che tutti i personaggi abbiano una capacità logica pressoché perfetta. Questo non vuol dire che debbano essere buoni, altruisti o altro, ma solo che tutti capiscano il gioco allo stesso modo, e non facciano alcun errore;
b) dato il punto a) è facile capire che tutti prenderanno la stessa decisione. Non può esistere uno che fa il furbo a scapito degli altri, perché questo automaticamente vorrebbe dire che anche gli altri faranno come lui. Solo il lettore "disattento" può pensare di far fare il furbo ad un solo personaggio.

A questo punto appare chiaro che, se uno dei prigionieri capisce che le conclusioni a cui arriva lui sono le stesse a cui arriva l'altro, scegliere non confessa è l'unica azione possibile.

Infatti se ci si convince che è impossibile che diano risposte diverse (vedi il punto b), allora il discorso egoista cade. Rimanendo solamente le possibilità (confessa, confessa) e (non confessa, non confessa) la scelta è a prova di dubbio.

Un'altra soluzione è quella proposta dalla teoria dei giochi ad informazione incompleta.

Il dilemma del prigioniero e la dimensione temporale[modifica | modifica sorgente]

Possiamo osservare due diverse soluzioni delle situazioni del tipo "dilemma del prigioniero" se gli attori del modello devono riprendere la stessa decisione più e più volte.

Costruiamo una matrice di pay off ordinale, dove a > b > c > d. Consideriamo un gioco del tipo dilemma del prigioniero con N giocatori (ponendo nella nostra matrice in verticale la scelta di un giocatore ed in orizzontale la scelta di tutti gli altri).

  inquina non inquina
inquina (c,c) (a,d)
non inquina (d,a) (b,b)

Per i giocatori il migliore dei mondi possibili è quello di vivere in un mondo pulito (immaginiamo che giochino un numero N di giocatori abbastanza grande da far sì che il comportamento del singolo influisca molto poco sul risultato finale ma abbia un diretto effetto sul proprio pay off), senza però affrontare i costi per mantenerlo pulito (la classica situazione da "free rider").

Poniamo che:

  • tutti gli agenti siano portati a decidere cosa fare infinite volte.
  • Gli agenti abbiano contratto un accordo che li obbligherebbe ad un atteggiamento cooperativo (come abbiamo visto una soluzione cooperativa garantirebbe un migliore risultato).
  • Ogni volta ognuno di essi, potendo osservare il comportamento degli altri giocatori, possa decidere se gli altri siano degni di fiducia.
  • Un giocatore che tradisce gli accordi è considerato costantemente non credibile dunque cade la possibilità di un accordo.

Consideriamo r come un tasso di sconto che viene applicato ai pay off per attualizzare il valore dei pay off futuri (un tasso insomma che esprima le preferenze intertemporali dei singoli giocatori).

Equilibrio cooperativo[modifica | modifica sorgente]

b + rb + r^{2}b + r^{3}b + r^{4}b + ... = \frac{b}{1 - r}\!

Equilibrio non cooperativo[modifica | modifica sorgente]

a + rc + r^{2}c + r^{3}c + r^{4}c + ... = a + \frac{r c}{1 - r}\!

come si può notare, il giocatore guadagna molto nel primo periodo raggiungendo un pay off a, ma nei periodi successivi si cade in un equilibrio non cooperativo.

la scelta dei giocatori sarà cooperativa se:

\frac{b}{1 - r}\!  > a + \frac{r c}{1 - r}

ed in particolare ponendo che r sia uguale per entrambi i giocatori (cioè che le preferenze intertemporali siano uguali tra i due) se:

1 \geq r \geq \frac{a - b}{a - c}

Falso paradosso della probabilità contro la logica[modifica | modifica sorgente]

Si vede facilmente che se tutti e due tirassero una moneta avrebbero comunque più possibilità di fare poco carcere piuttosto che utilizzare la strategia furba; infatti:

Scelta furba: 100% di prendere 6 anni
Scelta con la moneta: 25% di prendere 7 anni
25% di prendere 6 anni
25% di prendere 1 anno
25% di prendere 0 anni

Nella scelta con la moneta è chiaro che la situazione è migliore per entrambi (0.25*7+0.25*6+0.25*1+0.25*0=3.5 anni di media che prenderebbero). Abbiamo a favore un buon 75% dei casi: nel 50% dei casi la pena verrà diminuita sensibilmente di 5 oppure 6 anni (in quest'ultimo caso sarà addirittura azzerata), e nel 25% dei casi invece rischieremo di ottenere la stessa pena che avremmo giocando da furbi. Apparirebbe dunque un paradosso, essendo una scelta migliore lanciare una moneta piuttosto che applicare la logica.

D'altra parte, tirare una moneta non è una scelta conveniente per un giocatore razionale, a meno di un accordo vincolante che obblighi entrambi a tirare la moneta; a quel punto, però, meglio ancora sarebbe un accordo vincolante che obbligasse entrambi a tacere.

Nel caso in cui uno dei due tirasse la moneta e l'altro effettuasse una scelta "furba", infatti, sapendo che l'altro ha tirato la moneta ma senza conoscere l'esito del tiro, la situazione spingerebbe comunque il secondo a confessare: infatti in questo modo nel 50% dei casi prenderebbe 0 anni rispetto a 1 (se l'altro non confessa) e nel 50% dei casi 6 anni rispetto a 7 (se l'altro confessa).

L'apparente paradosso dunque non sussiste e un giocatore razionale, in assenza di accordi vincolanti, sceglierà sempre di confessare.

Note[modifica | modifica sorgente]

  1. ^ Matematica per strategie ed equilibri - Linx Magazine - La rivista di scienze per la classe
  2. ^ Questa situazione di equilibrio risponde all'"Equilibrio di Nash", uno dei teoremi più importanti della teoria dei giochi, enunciato dal matematico statunitense John Forbes Nash.

Voci correlate[modifica | modifica sorgente]

Collegamenti esterni[modifica | modifica sorgente]

matematica Portale Matematica: accedi alle voci di Wikipedia che trattano di matematica