Distribuzione di probabilità a priori

Da Wikipedia, l'enciclopedia libera.

Nell'ambito dell'inferenza statistica bayesiana, una distribuzione di probabilità a priori, detta spesso anche distribuzione a priori, di una quantità incognita p (per esempio, supponiamo p essere la proporzione di votanti che voteranno per il politico Rossi in un'elezione futura) è la distribuzione di probabilità che esprimerebbe l'incertezza di relativa a p prima che i "dati" (per esempio, un sondaggio di opinione) siano presi in considerazione. Il proposito è di attribuire incertezza piuttosto che casualità ad una quantità incerta. La quantità incognita può essere un parametro o una variabile latente.

Si applica il teorema di Bayes, moltiplicando la distribuzione a priori per la funzione di verosimiglianza e quindi normalizzando, per ottenere la distribuzione di probabilità a posteriori, la quale è la distribuzione condizionata della quantità incerta una volta ottenuti i dati.

Spesso una distribuzione a priori è l'accertamento soggettivo (elicitazione) di una persona esperta. Quando possibile, alcuni sceglieranno una distribuzione a priori coniugata per rendere più semplice il calcolo della distribuzione a posteriori.

I parametri di una distribuzione a priori sono chiamati iperparametri, per distinguerli dai parametri del modello dei dati sottostanti. Per esempio, se si sta usando una distribuzione beta per modellare la distribuzione di un parametro p di una distribuzione di Bernoulli, allora:

  • p è un parametro del(la distribuzione di Bernoulli del) sistema sottostante, e
  • α e β sono parametri della distribuzione a priori (distribuzione beta), quindi sono iperparametri.

Distribuzioni a priori informative[modifica | modifica wikitesto]

Una distribuzione a priori informativa esprime una specifica, definita informazione circa una variabile. Un esempio è la distribuzione a priori per la temperatura di domattina. Un approccio ragionevole è costruire la distribuzione a priori come una distribuzione normale con valore atteso uguale alla temperatura mattutina di oggi, con una varianza uguale alla varianza giorno per giorno della temperatura atmosferica, oppure come una distribuzione della temperatura per quel tal giorno dell'anno.

Questo esempio ha una proprietà in comune con molte distribuzioni a priori, ovvero, che la distribuzione a posteriori di un problema (temperatura odierna) diventa la distribuzione a priori per un altro problema (temperatura di domani); l'evidenza preesistente che è già stata tenuta in conto è parte della distribuzione a priori e come ulteriore evidenza viene accumulata la distribuzione a priori è largamente determinata dall'evidenza piuttosto che da qualche assunzione originale, sempre che l'assunzione originale ammetta la possibilità (ossia sia compatibile) con quello che l'evidenza suggerisce. I termini "a priori" e "a posteriori" sono generalmente relativi ad un dato o un'osservazione specifica.

Distribuzioni a priori non informative[modifica | modifica wikitesto]

Una distribuzione a priori non informativa esprime vaghezza o informazione a carattere generale circa una variabile. Il termine non informativa può essere un po' fuorviante; spesso, tale tipo di distribuzione è chiamata a priori non molto informativa, oppure a priori oggettiva, cioè una distribuzione che non è soggettivamente esplicitata. Le distribuzioni a priori non informative possono esprimere informazione "oggettiva" come ad esempio "la variabile è positiva" oppure la "la variabile è minore di tal limite".

La più semplice e vecchia regola per determinare una distribuzione a priori non informativa è il principio d'indifferenza, il quale assegna a tutti gli eventi uguale probabilità.

In problemi di stima parametrica, l'uso di una distribuzione a priori non informativa da risultati che sono non troppo differenti dall'analisi statistica convenzionale. Questo accade in quanto la funzione di verosimiglianza fornisce la parte maggiore dell'informazione rispetto a quella fornita dalla distribuzione a priori non informativa nel determinare una distribuzione a posteriori.

Vari tentativi sono stati fatti per trovare probabilità a priori, cioè distribuzioni di probabilità in un certo senso logicamente richieste dalla natura di uno stato di incertezza; queste sono soggette a controversia filosofica, con i sostenitori del metodo bayesiano approssimativamente divisi in due scuole: i "bayesiani oggettivistici", che credono che tali distribuzioni a priori esistano in molte situazioni, e i "bayesiani soggettivisti" che credono che in pratica le distribuzioni a priori rappresentino giudizi di opinione che non possono essere rigorosamente giustificati (Williamson 2010). Per la maggiore le più forti argomentazioni a favore della scuola oggettivistica furono date da Edwin T. Jaynes.

Come esempio di una distribuzione a priori, dovuta a Jaynes (2003), consideriamo una situazione in cui sappiamo che una pallina è nascosta sotto una di tre tazze rovesciate, A, B o C, ma nessun altra informazione è disponibile circa la sua posizione. In questo caso una distribuzione a priori uniforme di p(A)=p(B)=p(C)=\frac{1}{3} sembra intuitivamente verosimile la sola scelta ragionevole. Più formalmente, noi possiamo vedere che il problema rimane lo stesso se scambiamo le lettere identificative "A", "B" e "C" delle tazze. Sarebbe perciò strano scegliere una distribuzione a priori per la quale una permutazione delle lettere causerebbe un cambio nella nostra predizione circa la posizione dove la pallina sarà trovata; la distribuzione a priori uniforme è la sola che preserva questa invarianza. Se si accetta questo principio di invarianza allora si può vedere che la distribuzione a priori uniforme è la distribuzione logicamente corretta che rappresenta questo stato di conoscenza a priori. Si avrà notato che questa distribuzione a priori è "oggettiva" nel senso di essere la scelta corretta per rappresentare un particolare stato di conoscenza, ma non è oggettiva nel senso di essere una caratteristica del sistema osservato indipendente dall'osservatore: in realtà la pallina esiste sotto una specifica tazza e in questa situazione ha solo senso parlare di probabilità se c'è un osservatore con una conoscenza limitata del sistema ossia della posizione della pallina sotto le tazze.

Come esempio più controverso, Jaynes pubblicò un argomento (Jaynes 1968) basato sui gruppi di Lie suggerente che la distribuzione a priori rappresentante in maniera completa l'incertezza sarebbe la distribuzione a priori di Haldane p−1(1 − p)−1. L'esempio fornito da Jaynes è quello di trovare un chimico in un laboratorio e di chiedergli di eseguire ripetutamente degli esperimenti di dissoluzione in acqua. La distribuzione a priori di Haldane[1] da prevalentemente la maggiore probabilità agli eventi p=0 and p=1, indicando che il campione ogni volta si scioglierà oppure no, con uguale probabilità. Tuttavia se sono stati osservati campioni non disciolgliersi in un esperimento e disciolgliersi in un altro, allora questa distribuzione a priori è aggiornata alla distribuzione uniforme sull'intervallo [0, 1]. Questo risultato si ottiene applicando il teorema di Bayes all'insieme di dati consistente in un'osservazione di dissoluzione e una di non dissoluzione, usando la distribuzione a priori precedente. La distribuzione di Haldane è stata criticata[senza fonte] sulla base che essa fornisce una distribuzione a posteriori impropria che pone il 100% del contenuto di probabilità sia a p = 0 o a p = 1 se un numero finito di esperimenti ha dato lo stesso risultato (ad esempio il discioglimento). La distribuzione a priori di Jeffreys p−1/2(1 − p)−1/2 è perciò preferita[senza fonte] (cfr. sotto).

Se lo spazio parametrico X è dotato di una struttura di gruppo naturale che lascia invariato il nostro stato di conoscenza bayesiano (Jaynes, 1968), allora la distribuzione a priori può essere costruita proporzionale alla Misura di Haar. Questo può essere visto come una generalizzazione del principio di invarianza che giustificava la distribuzione a priori uniforme dell'esempio delle tre tazze visto sopra. Per esempio, in fisica ci si aspetta che un esperimento dia i medesimi risultati indipendentemente dalla scelta dell'origine del sistema di coordinate. Questo induce la struttura gruppale del gruppo delle traslazioni su X, il quale determina la distribuzione di probabilità a priori come una distribuzione a priori impropria costante. Analogamente alcuni sistemi fisici presentano un'invarianza di scala (ossia i risultati sperimentali sono indipendenti dal fatto che, ad esempio, usiamo centimetri o pollici). In tal caso il gruppo di scala è la struttura di gruppo naturale, e la corrispondente distribuzione a priori su X è proporzionale a 1/x. Qualche volta risulta importante se viene usata la misura di Haar invariante a sinistra piuttosto che quella invariante a destra. Per esempio, le misure di Haar invarianti a destra e a sinistra sul gruppo affine non sono uguali. Berger (1985, p. 413) arguisce che la scelta corretta è la misura di Haar invariante a destra.

Un'altra idea, supportata da Edwin T. Jaynes, è di usare il principio di massima entropia (MAXENT). La motivazione è che l'entropia di Shannon di una distribuzione di probabilità misura l'ammontare di informazione contenuta nella distribuzione. Maggiore è l'entropia, minore è l'informazione fornita dalla distribuzione. Perciò, mediante la massimizzazione dell'entropia sopra un adeguato insieme di distribuzioni di probabilità su X, si trova la distribuzione che è meno informativa nel senso che essa contiene il minore ammontare di informazione consistente con le costrizioni definite dall'insieme scelto. Per esempio, la distribuzione a priori di massima entropia su uno spazio discreto, dato solo il fatto che la probabilità è normalizzata a 1, è la distribuzione a priori che assegna uguale probabilità ad ogni stato. Mentre nel caso continuo, la distribuzione a priori di massima entropia con densità normalizzata, media nulla e varianza unitaria, è la ben nota distribuzione normale. Il principio di minima entropia incrociata generalizza il principio di massima entropia al caso di "aggiornamento" di una distribuzione a priori arbitraria con adeguate costrizioni nel senso di massima entropia.

Un'idea collegata, la distribuzione a priori di riferimento, fu introdotta da José-Miguel Bernardo. Qui l'idea è di massimizzare il valore atteso della divergenza di Kullback–Leibler della distribuzione a posteriori rispetto alla distribuzione a priori. Questo massimizza l'informazione attesa riguardante X quando la densità a priori è p(x); perciò, in un certo senso, p(x) è la distribuzione a priori meno informativa riguardo X. La distribuzione a priori di riferimento è definita nel limite asintotico, cioè si considera il limite delle distribuzioni a priori così ottenute come il numero di dati va all'infinito. Nei problemi multivariati spesso vengono scelte come distribuzioni a priori oggettive le distribuzioni a priori di riferimento, dato che altre scelte (ad esempio la regola di Jeffreys possono portare a distribuzioni a priori dal comportamento problematico.

Distribuzioni a priori oggettive possono anche essere derivate da altri principi, come le teorie dell'informazione o le teorie della codifica (vedi ad esempio lunghezza di descrizione minima) oppure della statistica frequentista.

Problemi filosofici legati alle distribuzioni a priori non informative sono associati alla scelta di una metrica appropriata o scala di misurazione. Supponiamo di volere una distribuzione a priori per la valocità di un corridore a noi sconosciuto. Potremmo specificare, diciamo, per la sua velocità una distribuzione a priori di tipo normale, ma in alternativa potremmo specificare una distribuzione a priori normale per il tempo impiegato a percorrere 100 metri, il quale è proporzionale al reciproco della prima distribuzione a priori. Queste due distribuzioni a priori sono effettivamente differenti, ma non è chiaro quale delle due preferire. Il metodo, spesso sopravvalutato, di trasformazione dei gruppi di Jaynes può rispondere a tale questione in varie situazioni.[2]

In maniera simile, se ci è chiesto di stimare una proporzione incognita tra 0 e 1, noi possiamo affermare che tutte le proporzioni sono ugualmente probabili ed usare una distribuzione a priori uniforme. Alternativamente, potremmo dire che tutti gli ordini di grandezza per la proporzione sono ugualmente probabili, e scegliere la distribuzione a priori logaritmica, la quale è la distribuzione a priori uniforme sul logaritmo della proporzione. La distribuzione a priori di Jeffreys tenta di risolvere questo problema calcolando una distribuzione a priori che esprime la medesima credenza indipendentemente dalla metrica utilizzata. La distribuzione a priori di Jeffreys per una proporzione incognita p è p−1/2(1 − p)−1/2, che differisce da quella raccomandata da Jaynes.

Distribuzioni a priori basate sulla nozione di probabilità algoritmica vengono impiegate nel campo dell'inferenza induttiva come base induttiva in configurazioni del tutto generali.

Problemi pratici associati con le distribuzioni a priori non informative includono il requisito che la distribuzione a posteriori sia propria. Le distribuzioni a priori non informative su variabili continue, non limitate sono improprie. Questo non è necessariamente un problema se la distribuzione a posteriori è propria. Un altro argomento importante è quello in cui se una distribuzione a priori non informativa viene usata in maniera regolare, cioè con svariati insiemi di dati, allora essa avrebbe buone proprietà frequentiste. Normalmente un bayesiano non dovrebbe porsi questo problema, ma potrebbe essere importante farlo in questa situazione. Per esempio, uno potrebbe volere che qualsiasi regola di decisione basata sulla distribuzione a posteriori sia ammissibile sotto la funzionedi perdita adottata. Sfortunatamente, l'ammissibilità è difficile da verificare, nonostante vari risultati siano noti (cfr. ad esempio, Berger and Strawderman, 1996). Il problema è particolarmente acuto con i modelli di Bayes gerarchici; le distribuzioni a priori usuali (ad esempio la distribuzione a priori di Jeffreys) possono dare regole di decisione praticamente inammissibili se impiegate ai livelli gerarchici più elevati.

Distribuzioni a priori improprie[modifica | modifica wikitesto]

Se il teorema di Bayes viene scritto come

P(A_i|B) = \frac{P(B | A_i) P(A_i)}{\sum_j P(B|A_j)P(A_j)}\, ,

allora è chiaro che si otterrebbe il medesimo risultato se tutte le probabilità a priori P(Ai) e P(Aj) fossero moltiplicate per una data costante; lo stesso sarebbe vero per una variabile casuale continua. Se la sommatoria al denominatore converge, le probabilità a posteriori sommeranno (o integreranno) ancora a 1 anche se i valori della distribuzione a priori non lo fanno, e in tal modo può solo essere necessario richiedere alle distribuzioni a priori di essere specificate nella proporzione corretta. Spingendo oltre questa idea, in molti casi non è neanche richiesto che la somma o l'integrale dei valori della distribuzione a priori sia finita per ottenere risposte significative circa le probabilità a posteriori. Quando questo è il caso, la distribuzione a priori è chiamata distribuzione a priori impropria. Tuttavia, se la distribuzione a priori è impropria, allora non è necessario che la distribuzione a posteriori sia propria. Questo è chiaro nella situazione in cui l'evento B è indipendente da tutti gli altri eventi Aj.

Vari statistici [senza fonte] usano le distribuzioni a priori improprie come distribuzioni a priori non informative. Per esempio, se hanno bisogno di una distribuzione a priori per la media e la varianza di una variabile casuale, allora essi assumono p(mv) ~ 1/v (per v > 0) il che suggerirebbe che qualsiasi valore per la media è "ugualmente probabile" e che un valore per la varianza positiva diventa "meno probabile" in proporzione inversa al suo valore. Molti autori (Lindley, 1973; De Groot, 1937; Kass and Wasserman, 1996)[senza fonte] mettono in guardia contro il pericolo di sovra-interpretare tali distribuzioni a priori poiché non sono densità di probabilità. La loro sola rilevanza che esse hanno si trova nella distribuzione a posteriori corrispondente, fintanto che questa è ben definita per tutte le osservazioni. (La distribuzione a priori di Haldane è un tipico controesempio.[non chiaro][senza fonte])

Esempi[modifica | modifica wikitesto]

Esempi di distribuzioni a priori includono:

Altre distribuzioni a priori[modifica | modifica wikitesto]

Il concetto di probabilità algoritmica fornisce una via per specificare la probabilità delle distribuzioni a priori basata sulla complessità relativa di modelli presi in considerazione e tra loro alternativi.

Note[modifica | modifica wikitesto]

  1. ^ Questa distribuzione fu proposta da J.B.S. Haldane in "A note on inverse probability", Mathematical Proceedings of the Cambridge Philosophical Society 28, 55–61, 1932, disponibile online al sito http://journals.cambridge.org/action/displayAbstract?aid=1733860. See also J. Haldane, "The precision of observed values of small frequencies", Biometrika, 35:297–300, 1948, disponibile online al sito http://www.jstor.org/pss/2332350.
  2. ^ Jaynes (1968), pp. 17, vedi anche Jaynes (2003), Capitolo 12. Si noti che il Capitolo 12 non è disponibile online ma può essere visto via Google Books.

Bibliografia[modifica | modifica wikitesto]