Paradosso di Simpson

Da Wikipedia, l'enciclopedia libera.
Vai alla navigazione Vai alla ricerca
Un esempio (tratto da "A Mathematician at the Ballpark: Odds and Probabilities for Baseball Fans (Paperback)" di Ken Ross, Pi Press, 2004. ISBN 0-13-147990-3. 12–13) del paradosso di Simpson: calcolo della battuta media di 2 giocatori di baseball nel corso di due stagioni. Se il giocatore Justice ha la media di battuta migliore in entrambe le stagioni rispetto all'avversario Jeter, chi avrà la battuta migliore combinando le annate?

In statistica, il paradosso di Simpson indica una situazione in cui una relazione tra due fenomeni appare modificata, o perfino invertita, dai dati in possesso a causa di altri fenomeni non presi in considerazione nell'analisi (variabili nascoste). È alla base di frequenti errori nelle analisi statistiche nell'ambito delle scienze sociali e mediche, ma non solo[1].

Storia[modifica | modifica wikitesto]

Fu descritto da George Udny Yule, nell'articolo Notes on the theory of association of attributes in Statistics, comparso in Biometrika nel 1903, e da E. H. Simpson, con l'articolo "The interpretation of interaction in contingency tables", pubblicato nel Journal of the Royal Statistical Society (1951).

Definizione formale[modifica | modifica wikitesto]

Benché

accade che

dove è la probabilità di condizionata dall'evento congiunto e , è l'evento complementare di e è l'evento complementare di [2]

Esempio[modifica | modifica wikitesto]

Si ipotizzi una situazione nella quale la percentuale di disoccupati tra i diplomati sia la metà rispetto alla popolazione di chi non ha conseguito il diploma.

Consideriamo però pure il fatto che, per motivi storici, tra le generazioni più anziane i diplomati siano in numero molto minore e che, per motivi legati al mercato del lavoro, tra i giovani il tasso di disoccupazione sia più elevato che tra gli anziani.

Partendo dalle seguenti due statistiche ipotetiche:

Intervistati senza diploma con diploma Totale
Giovani 20 80 100
Anziani 120 30 150
Totale 140 110 250
Tasso di disoccupazione senza diploma con diploma
Giovani 30% 15%
Anziani 5% 3,33%

dove abbiamo che in entrambi i casi la disoccupazione è circa doppia tra i non diplomati, rispetto ai diplomati, si può calcolare il numero di disoccupati:

Disoccupati senza diploma con diploma Totale
Giovani 6 12 18
Anziani 6 1 7
Totale 12 13 25

Questi valori assoluti permettono ora di calcolare il tasso di disoccupazione per i non diplomati e per i diplomati senza tenere conto dell'età. Si ottiene:

Percentuale di disoccupati
senza diploma 12/140 = 8,6%
con diploma 13/110 = 11,8%

Si scopre così che tra i diplomati il tasso di disoccupazione invece che essere la metà è maggiore di un quarto che tra i non diplomati, proprio il contrario di quello che si era ipotizzato.

Questo paradosso è dovuto al fatto che il tasso di disoccupazione è nettamente maggiore nel gruppo che ha una maggiore percentuale di diplomati; trascurare l'esistenza di due relazioni fondamentali (quella tra disoccupazione e età, nonché quella tra età e titolo di studio) fa giungere a conclusioni errate[3][4].

Cause[modifica | modifica wikitesto]

Mentre nel caso precedente preparato a tavolino la contraddizione è evidente, nelle analisi statistiche reali può capitare di non accorgersi delle relazioni implicite esistenti tra le variabili e limitarsi ad analizzare dati aggregati senza incrociarli con le variabili essenziali; la contraddizione non verrebbe allora minimamente percepita, e si potrebbero trarre conclusioni completamente opposte alla vera distribuzione, con conseguenze potenzialmente molto gravi.

In situazioni meno estreme di quelle dell'esempio, le stesse cause del paradosso di Simpson possono portare a sovrastimare o sottostimare differenze tra gruppi, senza però capovolgere il "segno" della relazione.

I dati prodotti dal paradosso di Simpson chiaramente non sono sbagliati in sé, ma semplicemente devono essere letti in modo diverso da come farebbe un lettore o analista superficiale:

  • tra persone con diploma ci sono più disoccupati che tra persone senza diploma

Mentre sbagliata è la conclusione superficiale che usa concetti di causa-effetto, come

  • avere un diploma è la causa di una maggiore disoccupazione

Volendo usare concetti di causa effetto (spesso l'unico motivo per il quale si analizzano i dati), ma avendo a disposizione tutti i dati, si può dire:

  1. i giovani sono sei volte più soggetti alla disoccupazione rispetto agli anziani;
  2. ma sia tra i giovani che tra gli anziani avere un diploma riduce il "rischio disoccupazione" alla metà.

Note[modifica | modifica wikitesto]

  1. ^ Redazione Airinforma, Il paradosso di Simpson – AIRInforma, su informa.airicerca.org. URL consultato il 19 agosto 2021.
  2. ^ Marco Minozzo, Calcolo delle Probabilità - Paradosso di Simpson (PDF), su economiamanagement.univr.it. URL consultato il 19 agosto 2021 (archiviato dall'url originale il 19 agosto 2021).
  3. ^ Cicchitelli, Il paradosso di Simpson (PDF), su e-l.unifi.it, p. Cap. 9 pp. 228-230.
  4. ^ Silvia Turin, Israele e i vaccinati ricoverati: ecco perché i dati non mettono in dubbio l'efficacia di Pfizer, su Corriere della Sera, 18 agosto 2021. URL consultato il 19 agosto 2021.

Bibliografia[modifica | modifica wikitesto]

(EN) Edward N. Zalta (a cura di), Paradosso di Simpson, in Stanford Encyclopedia of Philosophy, Center for the Study of Language and Information (CSLI), Università di Stanford.

Altri progetti[modifica | modifica wikitesto]