Inferenza bayesiana

Da Wikipedia, l'enciclopedia libera.

L'inferenza bayesiana è un approccio all'inferenza statistica in cui le probabilità non sono interpretate come frequenze, proporzioni o concetti analoghi, ma piuttosto come livelli di fiducia nel verificarsi di un dato evento. Il nome deriva dal teorema di Bayes, che costituisce il fondamento di questo approccio.

Il teorema di Bayes prende a sua volta il nome dal reverendo Thomas Bayes. Ad ogni modo non è chiaro se Bayes stesso sottoscriverebbe l'interpretazione della teoria della probabilità che oggi chiamiamo bayesiana.

Principi e strumenti dell'approccio bayesiano[modifica | modifica wikitesto]

Evidenza empirica e metodo scientifico[modifica | modifica wikitesto]

Gli statistici bayesiani sostengono che i metodi dell'inferenza bayesiana rappresentano una formalizzazione del metodo scientifico, che normalmente implica la raccolta di dati (evidenza empirica), che corroborano o confutano una data ipotesi. In questo senso, non si possono mai avere certezze riguardo a un'ipotesi, ma con l'aumentare della disponibilità di dati il grado di fiducia cambia; con sufficiente evidenza empirica, diventerà molto alto (per esempio, tendente a 1) o molto basso (tendente a 0).

Il sole è sorto e tramontato per miliardi di anni. Il sole è tramontato anche stanotte. Con un'elevata probabilità, il sole domani sorgerà.

Questo esempio è ripreso da una nota argomentazione di Pierre Simon Laplace, che pare sia giunto in maniera indipendente al risultato del teorema di Bayes.

Gli statistici bayesiani sostengono inoltre che l'inferenza bayesiana costituisca la base più logica per discriminare tra ipotesi alternative/in conflitto. Tramite tale approccio, si usa una stima del grado di fiducia in una data ipotesi prima dell'osservazione dei dati, al fine di associare un valore numerico al grado di fiducia in quella stessa ipotesi successivamente all'osservazione dei dati. Dal momento che si fonda su livelli di fiducia soggettivi, per contro, l'inferenza bayesiana non è interamente riducibile al concetto di induzione; si veda anche metodo scientifico.

Teorema di Bayes[modifica | modifica wikitesto]

In termini più semplici, il teorema di Bayes fornisce un metodo per modificare il livello di fiducia in una data ipotesi, alla luce di nuova informazione. Denotando con \ H_{0} l'ipotesi nulla, e con \ E il dato empirico osservato, il teorema di Bayes può essere enunciato come:

\ P(H_{0}|E)=\frac{P(E|H_{0})P(H_{0})}{P(E)}

Tralasciando l'origine dell'ipotesi nulla (che potrà essere stata formulata ab initio, o dedotta da precedenti osservazioni), essa dovrà comunque essere formulata prima dell'osservazione \ E. Nella terminologia della statistica bayesiana, inoltre:

  • \ P(H_{0}) è detta probabilità a priori di \ H_0;
  • \ P(E|H_{0}) è detta funzione di verosimiglianza, ed è ciò su cui si fonda l'inferenza classica, o frequentista;
  • \ P(E) è detta probabilità marginale, la probabilità di osservare \ E, senza alcuna informazione pregressa; è una costante di normalizzazione;
  • \ P(H_{0}|E) è detta probabilità a posteriori di \ H_0, dato \ E.

Il fattore di scala \ P(E|H_{0})/P(E) può essere interpretato come una misura dell'impatto che l'osservazione di \ E ha sul grado di fiducia del ricercatore nell'ipotesi nulla, rappresentato a sua volta dalla probabilità a priori \ P(H_{0}); se è altamente inverosimile che \ E sia osservato, a meno che \ H_0 non sia proprio vera, il fattore di scala sarà elevato. La probabilità (fiducia) a posteriori, di conseguenza, combina le convinzioni che il ricercatore ha a priori con quelle derivanti dall'osservazione del dato empirico.

È facile mostrare che \ P(H_{0}|E) è sempre minore o al più uguale a 1, così che le consuete proprietà della probabilità sono soddisfatte; infatti:

\ P(E)\geq P(E\wedge H_{0})=P(E|H_{0})P(H_{0})

dunque se \ P(E)=P(E\wedge H_{0}), \ P(H_{0}|E)=1, e in qualunque altro caso la probabilità a posteriori sarà strettamente minore di 1.

Probabilità oggettiva e soggettiva[modifica | modifica wikitesto]

Alcuni statistici bayesiani ritengono che se fosse possibile assegnare alle probabilità a priori un valore oggettivo, il teorema di Bayes potrebbe essere impiegato per fornire una misura oggettiva della probabilità di un'ipotesi. Per altri, tuttavia, non sarebbe possibile assegnare probabilità oggettive; in effetti, ciò sembrerebbe richiedere la capacità di assegnare probabilità a tutte le possibili ipotesi.

In alternativa (e più spesso, nel contesto della statistica bayesiana), le probabilità si considerano una misura del grado soggettivo di fiducia da parte del ricercatore, e si suppone che restringano le potenziali ipotesi a un insieme limitato, inquadrato in un modello di riferimento. Il teorema di Bayes dovrebbe allora fornire un criterio razionale per valutare fino a che punto una data osservazione dovrebbe alterare le convinzioni del ricercatore; in questo caso tuttavia la probabilità rimane soggettiva: dunque è possibile usare il teorema per giustificare razionalmente una qualche ipotesi, ma alle spese di rifiutare l'oggettività delle affermazioni che ne derivano.

È inoltre improbabile che due individui muovano dallo stesso grado di fiducia soggettiva. I sostenitori del metodo bayesiano argomentano che, anche con probabilità a priori molto differenti, un numero sufficiente di osservazioni possa condurre a probabilità a posteriori molto vicine. Ciò presuppone che i ricercatori non rifiutino a priori le ipotesi della loro controparte, e che assegnino probabilità condizionate (funzioni di verosimiglianza) simili.

La scuola della statistica italiana ha dato importanti contributi allo sviluppo della concezione soggettiva della probabilità, tramite il lavoro di Bruno de Finetti. Sulla distinzione tra probabilità oggettiva e soggettiva, si veda anche l'articolo sulla probabilità.

Rapporto di verosimiglianza[modifica | modifica wikitesto]

Spesso l'impatto dell'osservazione empirica può essere sintetizzato da un rapporto di verosimiglianza. Quest'ultimo può essere combinato con la probabilità a priori, per rappresentare il grado di fiducia a priori e qualunque precedente risultato empirico. Per esempio, si consideri il rapporto di verosimiglianza:

\ \Lambda=\frac{L(H_{0}|E)}{L(\textrm{not}\ H_{0}|E)}=\frac{P(E|H_{0})}{P(E|\textrm{not}\ H_{0})}

Si può riscrivere l'enunciato del teorema di Bayes come:

\ P(H_{0}|E)=\frac{\Lambda P(H_{0})}{\Lambda P(H_{0})+P(\textrm{not}\ H_{0})}=\frac{P(H_{0})}{P(H_{0})+\left(1-P(H_{0})\right)/\Lambda}

Sulla base di due risultati empirici indipendenti \ E_1, \ E_2, quanto sopra può essere sfruttato per computare la probabilità a posteriori sulla base di \ E_1, e utilizzare quest'ultima come nuova probabilità a priori per calcolare una seconda probabilità a posteriori basata su \ E_2. Questo procedimento è algebricamente equivalente a moltiplicare i rapporti di verosimiglianza. Dunque:

\ P(E_{1},E_{2}|H_{0})=P(E_{1}|H_{0})P(E_{2}|H_{0})\quad \wedge\quad P(E_{1},E_{2}|\textrm{not}\ H_{0})=P(E_{1}|\textrm{not}\ H_{0})P(E_{2}|\textrm{not}\ H_{0})

implica:

\ P(H_{0}|E_{1},E_{2})=\frac{\Lambda_{1}\Lambda_{2}P(H_{0})}{\Lambda_{1}\Lambda_{2}P(H_{0})+P(\textrm{not}\ H_{0})}

Funzione di perdita[modifica | modifica wikitesto]

La statistica bayesiana presenta importanti collegamenti con la teoria delle decisioni; una decisione basata sul fondamento dell'inferenza bayesiana è determinata da una funzione di perdita ad essa associata. La funzione di perdita essenzialmente riflette le conseguenze negative associate alla decisione "sbagliata". Un esempio piuttosto comune, e che porta a risultati assai vicini a quelli dell'inferenza classica o frequentista, è quello della funzione di perdita quadratica.

Particolari distribuzioni a priori e a posteriori[modifica | modifica wikitesto]

La v.c. Beta nell'inferenza bayesiana[modifica | modifica wikitesto]

La v.c. Beta svolge un importante ruolo nell'ambito dell'inferenza bayesiana in quanto per alcune v.c. è sia la distribuzione a priori che la distribuzione a posteriori (con parametri diversi) dei parametri di tali v.c.

Priori coniugati e la v.c. Binomiale[modifica | modifica wikitesto]

Se X è distribuita come una v.c. Binomiale con parametri n e π

f(x|\pi)=Binom(x|n;\pi)

e il parametro π è distribuito a priori come una v.c. Beta con i parametri a e b

g(\pi)=Beta(\pi|a;b)

allora il parametro π è distribuito a posteriori anch'esso come una v.c. Beta, ma con parametri a+x e b+n-x

g(\pi|x)=Beta(\pi|a+x;b+n-x)

Qualora la distribuzione a priori sia una variabile casuale rettangolare nell'intervallo [0;1] (ovvero ipotizzando a priori tutti i possibilii valori di π equiprobabili), e pertanto a=1 e b=1, allora la distribuzione a posteriori è una Beta con parametri x+1 e n-x+1

g(\pi|x)=(n+1) {n \choose k} \pi^k (1-\pi)^{n+k}

che ha come valore modale p (e dunque come valore più probabile)

p=\frac{x}{n}, che corrisponde alla frequenza osservata che è la stima usata in ambito frequentistico

mentre il valore che minimizza lo scarto quadratico, ovvero la media è

p=\frac{x+1}{n+2}, che per x<n/2 è maggiore del valore modale \frac{x}{n}

V.c. Beta, Binomiale e Beta-Binomiale[modifica | modifica wikitesto]

Nel caso di una v.c Binomiale Binom(n;\pi) con prior coniugate Beta(a,b) della \pi, la v.c. che descrive la probabilità di ottenere x eventi positivi su n è distribuita come una variabile casuale beta-binomiale BetaBin(n;a;b). La v.c. beta-binomiale entra così nella formula con la quale si determina in modo bayesiano la probabilità posteriori di un modello.

Priori coniugati e la v.c. Binomiale Negativa[modifica | modifica wikitesto]

Se X è distribuita come una v.c. binomiale negativa con parametri m e θ

f(x|\theta)=BinNeg(x|m;\theta)

e il parametro θ è distribuito a priori come una v.c. Beta con i parametri a e b

g(\theta)=Beta(\theta|a;b)

allora il parametro θ è distribuito a posteriori anch'esso come una v.c. Beta, ma con parametri a+m e b+x

g(\theta|x)=Beta(\theta|a+m;b+x)

Qualora la distribuzione a priori sia una variabile casuale rettangolare nell'intervallo [0;1] (ovvero ipotizzando a priori tutti i possibilii valori di θ equiprobabili), e pertanto a=1 e b=1, allora la distribuzione a posteriori è una Beta con parametri m+1 e x+1

che ha come valore modale t (e dunque come valore più probabile)

t=m/(m+x)

La v.c. Gamma nell'inferenza bayesiana[modifica | modifica wikitesto]

La v.c. Gamma svolge un importante ruolo nell'ambito dell'inferenza bayesiana in quanto per alcune v.c. è sia la distirubuzione a priori che la distribuzione a posteriori (con parametri diversi) dei parametri di tali v.c.

Priori coniugati e la stessa v.c. Gamma[modifica | modifica wikitesto]

Se X è distribuita come una v.c. Gamma con parametri α e θ

f(x|\theta)=Gamma(x|\alpha;\theta)

e il parametro θ è distribuito a priori a sua volta come una v.c. Gamma con i parametri a e b

g(\theta)=Gamma(\theta|a;b)

allora il parametro θ è distribuito a posteriori anch'esso come una v.c. Gamma, ma con parametri a+α e b+x

g(\theta|x)=Gamma(\theta|a+\alpha;b+x)

Priori coniugati e la v.c. Poissoniana[modifica | modifica wikitesto]

Se X è distribuita come una v.c. poissoniana con parametro λ

f(x|\lambda)=Poiss(x|\lambda)

e il parametro λ è distribuito a priori come una v.c. Gamma con i parametri a e b

g(\lambda)=Gamma(\lambda|a;b)

allora il parametro λ è distribuito a posteriori anch'esso come una v.c. Gamma, ma con parametri a+x e b+1

g(\lambda|x)=Gamma(\theta|a+x;b+1)

V.c. Poissoniana, Gamma e Poisson-Gamma[modifica | modifica wikitesto]

Nel caso che la prior coniugate di una v.c Poissoniana sia una v.c. Gamma, allora la probabilità che si realizzino x eventi è distribuita come una variabile casuale Poisson-Gamma. La Poisson-Gamma entra così nella formula con la quale si determina in modo bayesiano la probabilità di un modella dopo aver conosciuto i dati.

V.c. esponenziale, Gamma e Gamma-Gamma[modifica | modifica wikitesto]

Nel caso che la prior coniugate di una variabile casuale esponenziale sia una v.c. Gamma, allora la funzione di densità di probabilità è distribuita come una variabile casuale Gamma-Gamma.

Priori coniugati e la v.c. Normale[modifica | modifica wikitesto]

V.c. Gamma come priori coniugati della v.c. normale[modifica | modifica wikitesto]

Se X è distribuita come una v.c. normale con parametr μ e 1/θ

f(x|\lambda)=N(x|\mu;1/\theta)

e il parametro θ è distribuito a priori come una v.c. Gamma con i parametri a e b

g(\lambda)=Gamma(\lambda|a;b)

allora il parametro θ è distribuito a posteriori anch'esso come una v.c. Gamma, ma con parametri a+1/2 e b+(μ-x)2/2

g(\theta|x)=Gamma(\theta|a+1/2;b+(\mu-x)^2/2)

Priori coniugati normale di una normale[modifica | modifica wikitesto]

Se X è distribuita come una v.c. normale con parametri m e σ2

f(x|m)=N(x|m;1/r^2)

e il parametro m è distribuito a priori come una v.c. normale con i parametri μ e σ2

g(m)=N(m|\mu ;1/\sigma^2)

allora il parametro m è distribuito a posteriori anch'esso come una v.c. Normale, ma con parametri (\sigma^2 \mu+r^2x)/(\sigma^2+r^2) e (\sigma^2r^2)/(\sigma^2+r^2)

g(m|x)=N(m|(\sigma^2 \mu+r^2x)/(\sigma^2+r^2);(\sigma^2r^2)/(\sigma^2+r^2))

La v.c. Dirichlet come priori coniugata della multinominale[modifica | modifica wikitesto]

Se X è distribuita come una variabile casuale multinomiale

f(x|\theta)=Multinomiale_k(\theta_1,\theta_2,...,\theta_k)

e la distribuzione a priori di θ è una variabile casuale di Dirichlet

g(\theta)=Dirichlet(\alpha_1,\alpha_2,...,\alpha_k)

allora la distribuzione a posteriori di θ è anch'essa una v.c. di Dirichlet, ma con nuovi parametri

g(\theta|x)=Dirichlet(\alpha_1+x_1,\alpha_2+x_k,...,\alpha_k+x_k)

L'uniforme discreta nel caso di estrazione semplice[modifica | modifica wikitesto]

Se X è distribuita come in seguito ad una estrazione semplice di una popolazione dicotomica

f(x|\theta)=\theta/n

e il parametro θ è distribuito apriori come una variabile casuale uniforme discreta

g(\theta)=1/n

allora la distribuzione a posteriori con la funzione di probabilità

g(\theta|x)=2 \theta/(n+1)

Popolarità dell'inferenza bayesiana[modifica | modifica wikitesto]

L'inferenza bayesiana ha a lungo rappresentato una corrente minoritaria nella teoria della statistica. Ciò è in larga parte dovuto alle difficoltà algebriche che essa pone; la computazione delle probabilità a posteriori è basata sul calcolo di integrali, per i quali spesso non si hanno espressioni analitiche.

Queste difficoltà hanno fino a pochi anni fa limitato la capacità della statistica bayesiana di produrre modelli realistici della realtà. Al fine di evitare di incorrere in problemi algebrici, gran parte dei risultati erano basati sulla teoria delle coniugate, particolari famiglie di distribuzioni per cui la probabilità a posteriori risulta avere la stessa forma di quella a priori. Chiaramente un approccio di questo tipo cozzava con l'ambizione dei bayesiani di fare statistica a partire da ipotesi meno restrittive di quelle dell'inferenza classica.

Grazie alla maggiore disponibilità di risorse informatiche a partire dagli anni novanta, è stato possibile superare tali difficoltà. È infatti possibile risolvere gli integrali in via numerica, aggirando i problemi algebrici, nella maggior parte delle applicazioni su un qualsiasi personal computer. Questa possibilità ha inoltre stimolato l'applicazione alla statistica Bayesiana di metodi numerici sviluppati in altri contesti, come quelli basati sulla simulazione (metodo Monte Carlo, algoritmi del campionamento di Gibbs e Metropolis-Hastings), nonché lo sviluppo di metodi nuovi nell'ambito della statistica bayesiana stessa (ad esempio i popolari metodi basati sulla Catena di Markov Monte Carlo, o MCMC). Ciò ha notevolmente incrementato la popolarità dell'inferenza bayesiana tra gli statistici; sebbene i bayesiani costituiscano ancora una minoranza, si tratta di una minoranza in rapida crescita.

Al di là delle difficoltà numeriche che hanno a lungo reso impopolare l'inferenza bayesiana o delle problematiche epistemologiche che i metodi bayesiani sollevano, l'approccio bayesiano ha il merito di aver stimolato, nella statistica come in altre discipline (un recente esempio è dato dall'economia), la riflessione su cosa sia un modello e su che lettura un ricercatore ne deve dare.

Voci correlate[modifica | modifica wikitesto]

Collegamenti esterni[modifica | modifica wikitesto]

matematica Portale Matematica: accedi alle voci di Wikipedia che trattano di matematica