Paradosso di Berkson

Da Wikipedia, l'enciclopedia libera.
Vai alla navigazione Vai alla ricerca
Un esempio del paradosso di Berkson:
Nella figura 1, supponiamo che il talento e l'attrattiva non siano correlati nella popolazione di riferimento.
Nella figura 2, qualcuno che campiona la popolazione prendendo in esame solo le celebrità può dedurre erroneamente che il talento è correlato negativamente con l'attrattiva, poiché le persone che non sono né talentuose né attraenti non diventano tipicamente celebrità.

Il paradosso di Berkson, noto anche come bias di Berkson, bias del collider o Fallacia di Berkson, è un risultato in probabilità condizionale e statistica spesso ritenuto controintuitivo. È un fattore di complicazione che emerge nei test statistici sulle proporzioni.

Viene spesso descritto nel campo della statistica medica o della biostatistica, come nella descrizione originale del problema di Joseph Berkson.

Esempi[modifica | modifica wikitesto]

Un'illustrazione del paradosso di Berkson. Il grafico in alto rappresenta la distribuzione effettiva di una popolazione, in cui si osserva una correlazione positiva tra qualità di hamburger e patatine fritte. Tuttavia, un individuo che non mangia in nessun luogo in cui entrambi sono cattivi osserva solo la distribuzione sul grafico in basso, che sembra mostrare una correlazione negativa.

L'esempio più comune del paradosso di Berkson è la falsa osservazione di una correlazione negativa tra due tratti positivi. Si osserva erroneamente che i membri di una popolazione che hanno un tratto positivo tendono a mancare del secondo e viceversa. Il paradosso di Berkson si verifica quando questa osservazione appare vera ma in realtà le due proprietà non sono correlate, o addirittura correlate positivamente, poiché il campione della popolazione su cui viene fatta l'osservazione non include sufficientemente (o per nulla) i membri della popolazione in cui entrambi i caratteri positivi sono entrambi assenti. Ad esempio, una persona può osservare dalla propria esperienza che i fast food della propria zona che servono hamburger buoni tendono a servire patatine fritte cattive e viceversa; ma poiché probabilmente non mangerebbero da nessuna parte dove entrambi i cibi sono cattivi, non tengono conto del gran numero di ristoranti in questa categoria la cui osservazione indebolirebbe o addirittura capovolgerebbe la correlazione.

Osservazione originale[modifica | modifica wikitesto]

L'osservazione originale del paradosso da parte di Berkson prevede uno studio retrospettivo che esamina un fattore di rischio per una malattia in un campione statistico di una popolazione ospedaliera ricoverata. Poiché i dati vengono raccolti su una popolazione ospedaliera ricoverata, piuttosto che dalla popolazione generale, può emergere un'associazione spuria negativa tra la malattia e il fattore di rischio. Ad esempio, se il fattore di rischio è il diabete e la malattia è la colecistite, un paziente ospedaliero senza diabete dimostra maggiori probabilità di avere la colecistite rispetto a un membro della popolazione generale, poiché il paziente ospedalizzato è comunque entrato in ospedale per un qualche motivo, anche non legato al diabete, che comunque esclude dal campionamento tutti i casi di individui non diabetici e non malati di colecistite. La correlazione spuria può manifestarsi indipendentemente dall'eventuale associazione tra diabete e colecistite nella popolazione generale.

Esempio quantitativo[modifica | modifica wikitesto]

Come esempio quantitativo, supponiamo che un collezionista possieda 1000 francobolli, di cui 300 belli e appariscenti, e 100 rari. 30 tra questi francobolli sono sia belli che rari. Dunque il 10% dei francobolli del collezionista sono rari e il 10% dei francobolli belli è anche rari. È evidente dunque che non c'è nessun legame tra bellezza e rarità. Tuttavia, il collezionista mette in vetrina i 370 francobolli che sono o belli o rari. Tra i francobolli in vetrina, il 27% è raro (100/370), sebbene il 10% dei francobolli carini sia anche raro, e sebbene il 100% dei 70 francobolli non belli in vetrina sia raro. Se un osservatore considerasse solo i francobolli in vetrina, misurerebbe una correlazione spuria negativa tra francobolli rari e francobolli belli, a causa della selezione che provoca distorsione nel campionamento. Infatti, in vetrina, ma solo in vetrina, la non-bellezza è fortemente indicativa del fatto che il francobollo deve essere allora per forza raro, cosa che non avviene nella collezione complessiva di francobolli, che include quelli non esposti.

Formulazione[modifica | modifica wikitesto]

Due eventi indipendenti diventano condizionalmente dipendenti (negativamente dipendenti) se almeno uno di essi si verifica. Simbolicamente:

Se , , e , dunque .
  • L'evento e l'evento possono o non possono accadere
  • , è la probabilità condizionata di osservare l'evento quando è noto che è già successo.
  • Se e sono indipendenti l'uno dall'altro, =
  • è la probabilità di osservare l'evento sapendo che e ( o ) si sono già verificati. Questo può anche essere scritto come
  • Spiegazione: La probabilità di dato entrambi e ( o ) si sono verificati è minore della probabilità di dato ( o )

In altre parole, dati due eventi indipendenti, se si considerano solo gli esiti in cui se ne verifica almeno uno, questi diventano negativamente dipendenti, come mostrato sopra.

Spiegazione[modifica | modifica wikitesto]

La causa è che la probabilità condizionata che si verifichi l'evento , sapendo che o è già successo o si verifica , è gonfiata: è superiore alla probabilità incondizionata, perché abbiamo escluso i casi in cui entrambi gli eventi non si verificano.

Si può vedere questo in forma tabellare come segue: le regioni gialle sono i risultati in cui si verifica almeno un evento (e ~A significa "non A ").

A ~A
B A & B ~A & B
~B A & ~B ~A & ~B

Ad esempio, se si ha un campione di casi, ed entrambi e si verificano indipendentemente la metà delle volte ( ), si ottiene:

A ~A
B 25 25
~B 25 25

Così, su risultati, o si verificano, di cui sono i casi in cui si verifica. Confrontando la probabilità condizionata di rispetto alla probabilità incondizionata di  :

Vediamo che la probabilità di è più alta ( ) nel sottoinsieme di risultati in cui ( o ) si verifica, rispetto alla popolazione complessiva ( ). D'altra parte, la probabilità di dati entrambi e ( o ) è semplicemente la probabilità incondizionata di , , dato che è indipendente da . Nell'esempio numerico, abbiamo selezionato la sola riga superiore:

A ~A
B 25 25
~B 25 25

Qui la probabilità di è .

Il paradosso di Berkson sorge perché la probabilità condizionata di dato all'interno del sottoinsieme di tre celle è uguale alla probabilità condizionata nella popolazione complessiva, ma la probabilità incondizionata all'interno del sottoinsieme è gonfiata rispetto alla probabilità incondizionata nella popolazione complessiva, quindi, all'interno del sottoinsieme, la presenza di diminuisce la probabilità condizionata di (torna alla sua probabilità incondizionata complessiva):

Bibliografia[modifica | modifica wikitesto]

Voci correlate[modifica | modifica wikitesto]

Collegamenti esterni[modifica | modifica wikitesto]