Distribuzione a priori coniugata

Da Wikipedia, l'enciclopedia libera.

Nell'ambito della teoria della probabilità bayesiana, se le distribuzioni a posteriori p(θ|x) sono nella stessa famiglia della distribuzione a priori p(θ), le due distribuzioni sono definite coniugate, a la distribuzione a priori è chiamata distribuzione a priori coniugata per la verosimiglianza. Per esempio, la famiglia della distribuzione gaussiana è coniugata a sé stessa (o auto-coniugata) rispetto ad una funzione di verosimiglianza gaussiana: se la funzione di verosimiglianza è gaussiana, scegliendo per la media una distribuzione a priori gaussiana assicurerà che anche la distribuzione a posteriori (della media) sarà ancora gaussiana. Questo significa che la distribuzione gaussiana è una distribuzione a priori coniugata per la verosimiglianza la quale è pure gaussiana. Il concetto, come pure il termine "distribuzione a priori coniugata" (conjugate prior), furono introdotti da Howard Raiffa e Robert Schlaifer nel loro lavoro sulla teoria delle decisioni bayesiana.[1] Un concetto simile fu scoperto indipendentemente da George Alfred Barnard.[2]

Consideriamo il problema generale di inferire una distribuzione per un parametro θ sulla scorta del dato o dei dati x. Dal teorema di Bayes, la distribuzione di probabilità a posteriori è uguale al prodotto della funzione di verosimiglianza \theta \mapsto p(x\mid\theta)\! e della distribuzione di probabilità a priori p(θ), normalizzato (diviso) per la probabilità dei dati p(x):

 p(\theta|x) = \frac{p(x|\theta) \, p(\theta)}
  {\int p(x|\theta) \, p(\theta) \, d\theta}. \!

Sia la funzione di verosimiglianza considerata fissata; la funzione di verosimiglianza è solitamente ben determinata in base ad ipotesi sul processo di generazione dei dati (ad esempio la verosimiglianza di dati relativi a misure di lunghezza può essere descritta nella maggior parte dei casi sperimentali da una funzione gaussiana oppure nel caso di dati relativi al getto ripetuto di una moneta da una funzione binomiale, ecc.). E' chiaro che scelte distinte della distribuzione a priori p(θ) possono rendere l'integrale che esprime la distribuzione a posteriori più o meno difficile da calcolare, e il prodotto p(x|θ) × p(θ) può assumere un certo aspetto algebrico piuttosto che un altro. Per taluni scelte della distribuzione a priori, la distribuzione a posteriori ha la stessa forma algebrica (generalmente con differenti valori dei parametri della distribuzione). Tale tipo di scelta è una distribuzione a priori coniugata.

Una distribuzione a priori coniugata è conveniente dal punto di vista algebrico in quanto fornisce una espressione in forma chiusa per la distribuzione a posteriori: alternativamente può essere necessario il calcolo di un integrale numerico. Inoltre le distribuzioni a priori coniugate possono fornire delle intuizioni circa il modo con cui la funzione di verosimiglianza aggiorna la distribuzione a priori.

Tutti i membri della famiglia esponenziale hanno distribuzioni a priori coniugate. Cfr. Gelman et al.[3] per una classificazione.

Esempio[modifica | modifica sorgente]

La forma di una distribuzione a priori coniugata generalmente può essere determinata mediante l'esame della funzione di densità di probabilità o della funzione probabilità di densità di massa (cioè il corrispettivo caso discreto). Per esempio, consideriamo una variabile casuale del tipo di processo di Bernoulli (cioè una sequenza casuale di casi 'favorevole', 'sfavorevole', ad esempio 0 o 1, oppure Vero o Falso, ecc.) con probabilità di successo q in [0,1] sconosciuta. La funzione di densità di probabilità ha la forma:

p(x) = q^x (1-q)^{1-x}

Espressa come una funzione di q assume la forma

f(q) \propto q^a (1-q)^b

per qualche costante a and b. Generalmente questa forma funzionale avrà un fattore moltiplicativo aggiuntivo (la costante di normalizzazione assicurante che la funzione è una distribuzione di probabilità, cioè il suo integrale sul suo intero dominio è pari a 1. Questo fattore risulterà spesso una funzione di a e di b, ma non dipenderà mai da q.

Infatti, la distribuzione a priori coniugata solitamente è la distribuzione beta con

p(q) = {q^{\alpha-1}(1-q)^{\beta-1} \over \Beta(\alpha,\beta)}

dove \alpha e \beta sono scelte conformemente a qualche credenza o informazione esistente (\alpha = 1 e \beta = 1 darebbero una distribuzione uniforme) e Β(\alpha\beta) è la funzione Beta agente come una costante di normalizzazione.

In questo contesto, \alpha e \beta sono chiamati iperparametri (parametri della distribuzione a priori), per distinguerli dai parametri del modello sottostante (q in questo caso). Una tipica caratteristica delle distribuzioni a priori coniugate è che la cardinalità degli iperparametri è maggiore di un'unità rispetto a quella dei parametri della distribuzione originale. Se tutti i parametri sono valori scalari, questo significa che ci sarà un iperparametro in più rispetto ai parametri; ma questo di applica anche al caso di parametri di tipo vettoriale o matriciale. (Vedi l'articolo generale sulla famiglia esponenziale, e considera anche la distribuzione di Wishart, distribuzione a priori coniugata della matrice delle covarianze della distribuzione normale multivariata, per un esempio dove è implicata la cardinalità elevata).

Se campioniamo questa variabile casuale ottenendo s successi ed f insuccessi, abbiamo:

P(s,f|q=x) = {s+f \choose s} x^s(1-x)^f,
p(q=x|s,f) = {{{s+f \choose s} x^{s+\alpha-1}(1-x)^{f+\beta-1} / \Beta(\alpha,\beta)} \over  \int_{y=0}^1 \left({s+f \choose s} y^{s+\alpha-1}(1-y)^{f+\beta-1} / \Beta(\alpha,\beta)\right) dy} = {x^{s+\alpha-1}(1-x)^{f+\beta-1} \over \Beta(s+\alpha,f+\beta)} ,

la quale è un'altra distribuzione Beta con una semplice variazione a(gli iper)parametri. Questa distribuzione a posteriori potrebbe quindi essere usata come una distribuzione a priori per ulteriori campionamenti, con gli iperparametri includenti ogni altra ulteriore informazione come questa sopraggiunge.

Pseudo-osservazioni[modifica | modifica sorgente]

Spesso è utile pensare gli iperparametri come corrispondenti ad un certo numero di pseudo-osservazioni con proprietà specificate dagli iperparametri. Per esempio, i valori \alpha e \beta della distribuzione Beta possono essere pensati come corrispondenti ad \alpha-1 successi e \beta-1 insuccessi se la moda a posteriori è usata per scegliere una selezione parametrica ottimale, oppure \alpha successi e \beta insuccessi se è stata scelta la media a posteriori. In generale per quasi tutte le distribuzioni a priori coniugate, gli iperparametri possono essere interpretati in termini di pseudo-osservazioni. Questo può aiutare sia per intuire la forma delle equazioni, sia per aiutare nella scelta di iperparametri ragionevoli per la distribuzione a priori.

Interpretazioni[modifica | modifica sorgente]

Analogia con le autofunzioni[modifica | modifica sorgente]

Le distribuzioni a priori coniugate sono analoghe alle autofunzioni nella teoria degli operatori, in quanto sono distribuzioni sulle quali agisce l'"operatore di condizionamento" per fornire la distribuzione a posteriori.

In entrambi i casi, c'è uno spazio di dimensione finita che è preservato dall'operatore: il risultato è della stessa forma (nel medesimo spazio iniziale) della funzione su cui agisce l'operatore. Questo semplifica grandemente l'analisi, che altrimenti considererebbe uno spazio dimensionalmente infinito (spazio di tutte le funzioni, spazio di tutte le distribuzioni di probabilità).

Tuttavia i due processi sono solo analoghi, non identici: l'operatore di condizionamento non è lineare, in quanto lo spazio delle distribuzioni non è chiuso sotto combinazione lineare, solamente combinazione convessa, e la distribuzione a posteriori è solo della stessa forma di quella a priori, non un multiplo scalare.

Difatti essendo possibile facilmente analizzare come una combinazione lineare di autofunzioni evolve sotto l'applicazione di un operatore, allo stesso modo è possibile facilmente analizzare l'evoluzione di una combinazione convessa di distribuzioni a priori coniugate sotto l'operatore di condizionamento. Questo ultimo è chiamato usando una distribuzione a iperpriori, ed equivale ad impiegare una miscela di densità di distribuzioni a priori coniugate, piuttosto che una singola distribuzione a priori coniugata.

Sistema dinamico[modifica | modifica sorgente]

E' possibile pensare il condizionamento su distribuzioni a priori coniugate come un tipo di sistema dinamico (con unità temporali discrete): a partire da un dato insieme di iperparametri, i dati man mano sopraggiungenti aggiornano tali parametri, così è possibile vedere la loro variazione come una sorta di "evoluzione temporale", corrispondente ad un "apprendimento". Partenze da punti distinti forniscono differenti evoluzioni temporali. Questo è ancora analogo ad un sistema dinamico definito mediante un operatore lineare, ma si noti che poiché campioni distinti conducono a inferenze differenti, non c'è una semplice dipendenza dal tempo ma piuttosto su dati evolventi nel tempo. Per approcci collegati cfr. stima bayesiana ricorsiva e assimilazione di dati (data assimilation).

Tabella delle distribuzioni coniugate[modifica | modifica sorgente]

n indica il numero di osservazioni.

Se la funzione di verosimiglianza appartiene alla famiglia esponenziale, allora esiste una distribuzione a priori coniugata, spesso anche all'interno della famiglia esponenziale.

Distribuzioni di verosimiglianza discrete[modifica | modifica sorgente]

Verosimiglianza Parametri del modello Distribuzione a priori coniugata Iperparametri della distr. a priori Iperparametri della distr. a posteriori Interpretazione degli iperparametri[nota 1] Distr. predittiva a posteriori[nota 2]
Bernoulli p (probabilità) Beta \alpha,\, \beta\! \alpha + \sum_{i=1}^n x_i,\, \beta + n - \sum_{i=1}^n x_i\! \alpha - 1 successi, \beta - 1 insuccessi[nota 1] p(\tilde{x}=1) = \frac{\alpha'}{\alpha'+\beta'}
Binomiale p (probabilità) Beta \alpha,\, \beta\! \alpha + \sum_{i=1}^n x_i,\, \beta + \sum_{i=1}^nN_i - \sum_{i=1}^n x_i\! \alpha - 1 successi, \beta - 1 insuccessi[nota 1] \operatorname{BetaBin}(\tilde{x}|\alpha',\beta')
(beta-binomiale)
Binomiale Negativa
con numero noto di insuccessi r
p (probabilità) Beta \alpha,\, \beta\! \alpha + \sum_{i=1}^n x_i,\, \beta + rn\! \alpha - 1 totale successi, \beta - 1 insuccessi[nota 1] (cioè \frac{\beta - 1}{r} esperimenti, assumendo che r rimanga fissato)
Poisson λ (rateo) Gamma k,\, \theta\! k+ \sum_{i=1}^n x_i,\ \frac {\theta} {n \theta  + 1}\! k occorrenze totali in 1/\theta intervalli \operatorname{NB}(\tilde{x}|k', \frac{1}{1+\theta'})
(binomiale negativa)
Poisson λ (rateo) Gamma \alpha,\, \beta\! [nota 3] \alpha + \sum_{i=1}^n x_i ,\ \beta + n\! \alpha occorrenze totali in \beta intervalli \operatorname{NB}(\tilde{x}|\alpha', \frac{\beta'}{1+\beta'})
(binomiale negativa)
Categoriale p (vettore probabilità), k (numero di categorie, cioè la dimensione di p) Dirichlet \boldsymbol\alpha\! \boldsymbol\alpha+(c_1,\ldots,c_k), dove c_i è il numero di osservazioni nella categoria i \alpha_i - 1 occorrenze di categoria i[nota 1] p(\tilde{x}=i) = \frac{{\alpha_i}'}{\sum_i {\alpha_i}'}

    = \frac{\alpha_i + c_i}{\sum_i \alpha_i + n}

Multinomiale p (vettore probabilità), k (numero di categorie, cioè la dimensione di p) Dirichlet \boldsymbol\alpha\! \boldsymbol\alpha+\sum_{i=1}^n\mathbf{x}_i\! \alpha_i - 1 occorrenze di categoria i[nota 1] \operatorname{DirMult}(\tilde{\mathbf{x}}|\boldsymbol\alpha')
(Dirichlet multinomiale)
Ipergeometrica
con dimensione della popolazione totale N
M (numero di membri bersaglio) Beta-binomiale

[4] || n=N, \alpha,\, \beta\! || \alpha + \sum_{i=1}^n x_i,\, \beta + \sum_{i=1}^nN_i - \sum_{i=1}^n x_i\!

\alpha - 1 successi, \beta - 1 insuccessi[nota 1]
Geometrica p0 (probabilità) Beta \alpha,\, \beta\! \alpha + n,\, \beta + \sum_{i=1}^n x_i\! \alpha - 1 esperimenti, \beta - 1insuccessi totali[nota 1]

Distribuzioni di verosimiglianza continue[modifica | modifica sorgente]

Nota: In tutti i casi sotto, si assume che i dati consistano di n punti x_1,\ldots,x_n (che saranno vettori casuali nei casi multivariati).

Verosimiglianza Parametri del modello Distribuzione a priori coniugata Iperparametri della distr. a priori Iperparametri della distr. a posteriori Interpretazione degli iperparametri Distribuzione predittiva a posteriori[nota 4]
Normale
con varianza nota σ2
μ (media) Normale \mu_0,\, \sigma_0^2\! \left.\left(\frac{\mu_0}{\sigma_0^2} + \frac{\sum_{i=1}^n x_i}{\sigma^2}\right)\right/\left(\frac{1}{\sigma_0^2} + \frac{n}{\sigma^2}\right),
 \left(\frac{1}{\sigma_0^2} + \frac{n}{\sigma^2}\right)^{-1}
la media è stimata da osservazioni con precisione totale (somma di tutte le precisioni individuali)1/\sigma_0^2 e con media campionaria\mu_0 \mathcal{N}(\tilde{x}|\mu_0', {\sigma_0^2}' +\sigma^2)[5]
Normale
con precisione nota τ
μ (media) Normale \mu_0,\, \tau_0\!  \left.\left(\tau_0 \mu_0 + \tau \sum_{i=1}^n x_i\right)\right/(\tau_0 + n \tau),\, \tau_0 + n \tau la media è stimata da osservazioni con precisione totale (somma di tutte le precisioni individuali)\tau_0 e con media campionaria \mu_0 \mathcal{N}\left(\tilde{x}|\mu_0', \left(\frac{1}{\tau_0'} +\frac{1}{\tau}\right)^{-1}\right)[5]
Normale
con media nota μ
σ2 (varianza) Gamma inversa  \mathbf{\alpha,\, \beta} [nota 5]  \mathbf{\alpha}+\frac{n}{2},\, \mathbf{\beta} + \frac{\sum_{i=1}^n{(x_i-\mu)^2}}{2} la varianza è stimata da 2\alpha osservazioni varianza campione \frac{\beta}{\alpha} (cioè con somma di deviazioni quadratiche 2\beta) t_{2\alpha'}(\tilde{x}|\mu,\sigma^2 = \beta'/\alpha')[5]
Normale
con media nota μ
σ2 (varianza) Chi-quadro inversa scalata \nu,\, \sigma_0^2\! \nu+n,\, \frac{\nu\sigma_0^2 + \sum_{i=1}^n (x_i-\mu)^2}{\nu+n}\! la varianza è stimata da \nu osservazioni con varianza campione \sigma_0^2 t_{\nu'}(\tilde{x}|\mu,{\sigma_0^2}')[5]
Normale
con media nota μ
τ (precisione) Gamma \alpha,\, \beta\![nota 3] \alpha + \frac{n}{2},\, \beta + \frac{\sum_{i=1}^n (x_i-\mu)^2}{2}\! la precisione è stimata da 2\alpha osservazioni con varianza campione \frac{\beta}{\alpha} (cioè con somma di deviazioni quadratiche 2\beta) t_{2\alpha'}(\tilde{x}|\mu,\sigma^2 = \beta'/\alpha')[5]
Normale μ and σ2
Assumendo scambiabilità
Gamma normale-inversa  \mu_0 ,\, \nu ,\, \alpha ,\, \beta \frac{\nu\mu_0+n\bar{x}}{\nu+n} ,\, \nu+n,\, \alpha+\frac{n}{2} ,\,
 
\beta + \tfrac{1}{2} \sum_{i=1}^n (x_i - \bar{x})^2 + \frac{n\nu}{\nu+n}\frac{(\bar{x}-\mu_0)^2}{2}
  •  \bar{x} è la media campionaria
la media è stimata da \nu osservazioni con media campionaria \mu_0; la varianza è stimata da 2\alpha+1 osservazioni con media campionaria \mu_0 e varianza campione \frac{\beta}{\alpha} (cioè come somma di deviazioni quadratiche 2\beta) t_{2\alpha'}\left(\tilde{x}|\mu',\frac{\beta'(\nu'+1)}{\alpha'\nu'}\right)[5]
Normale μ e τ
Assumendo scambiabilità
normale-Gamma  \mu_0 ,\, \nu ,\, \alpha ,\, \beta \frac{\nu\mu_0+n\bar{x}}{\nu+n} ,\, \nu+n,\, \alpha+\frac{n}{2} ,\,
 
\beta + \tfrac{1}{2} \sum_{i=1}^n (x_i - \bar{x})^2 + \frac{n\nu}{\nu+n}\frac{(\bar{x}-\mu_0)^2}{2}
  •  \bar{x} è la media campionaria
la media è stimata da \nu osservazioni con media campionaria \mu_0, e la precisione è stimata da 2\alpha+1 osservazioni con media campionaria \mu_0 e varianza campione \frac{\beta}{\alpha} (cioè come somma di deviazioni quadratiche 2\beta) t_{2\alpha'}\left(\tilde{x}|\mu',\frac{\beta'(\nu'+1)}{\alpha'\nu'}\right)[5]
Normale multivariata con matrice di covarianza nota Σ μ (media vettore) Normale multivariata \boldsymbol{\boldsymbol\mu}_0,\, \boldsymbol\Sigma_0 \left(\boldsymbol\Sigma_0^{-1} + n\boldsymbol\Sigma^{-1}\right)^{-1}\left( \boldsymbol\Sigma_0^{-1}\boldsymbol\mu_0 + n \boldsymbol\Sigma^{-1} \mathbf{\bar{x}} \right),
\left(\boldsymbol\Sigma_0^{-1} + n\boldsymbol\Sigma^{-1}\right)^{-1}
  • \mathbf{\bar{x}} è la media campionaria
la media è stimata da osservazioni con precisione totale (somma di tutte le precisioni individuali)\boldsymbol\Sigma_0^{-1} e con media campionaria \boldsymbol\mu_0 \mathcal{N}(\tilde{\mathbf{x}}|{\boldsymbol\mu_0}', {\boldsymbol\Sigma_0}' +\boldsymbol\Sigma)[5]
Normale multivariata con matrice di precisione nota Λ μ (media vettore) Normale multivariata \mathbf{\boldsymbol\mu}_0,\, \boldsymbol\Lambda_0 \left(\boldsymbol\Lambda_0 + n\boldsymbol\Lambda\right)^{-1}\left( \boldsymbol\Lambda_0\boldsymbol\mu_0 + n \boldsymbol\Lambda \mathbf{\bar{x}} \right),\, \left(\boldsymbol\Lambda_0 + n\boldsymbol\Lambda\right)
  • \mathbf{\bar{x}} è la media campionaria
la media è stimata da osservazioni con precisione totale (somma di tutte le precisioni individuali)\boldsymbol\Lambda e con media campionaria \boldsymbol\mu_0 \mathcal{N}\left(\tilde{\mathbf{x}}|{\boldsymbol\mu_0}', ({{\boldsymbol\Lambda_0}'}^{-1} + \boldsymbol\Lambda^{-1})^{-1}\right)[5]
Normale multivariata con media nota μ Σ (matrice di covarianza) Wishart-inversa \nu ,\, \boldsymbol\Psi n+\nu ,\, \boldsymbol\Psi + \sum_{i=1}^n (\mathbf{x_i} - \boldsymbol\mu) (\mathbf{x_i} - \boldsymbol\mu)^T  varianza è stimata da \nu osservazioni con somma di deviazioni quadratiche \boldsymbol\Psi t_{\nu'-p+1}\left(\tilde{\mathbf{x}}|\boldsymbol\mu,\frac{1}{\nu'-p+1}\boldsymbol\Psi'^{-1}\right)[5]
Normale multivariata con media nota μ Λ (matrice di precisione) Wishart \nu ,\, \mathbf{V} n+\nu ,\, \left( \mathbf{V}^{-1} + \sum_{i=1}^n (\mathbf{x_i} - \boldsymbol\mu) (\mathbf{x_i} - \boldsymbol\mu)^T \right)^{-1} la precisione è stimata da \nu osservazioni con somma di deviazioni quadratiche \mathbf{V}^{-1} t_{\nu'-p+1}\left(\tilde{\mathbf{x}}|\boldsymbol\mu,\frac{1}{\nu'-p+1}\boldsymbol\Lambda'\right)[5]
Normale multivariata μ (media vettore) and Σ (matrice di covarianza) Wishart normale-inversa \boldsymbol\mu_0 ,\, \kappa_0 ,\, \nu_0 ,\, \boldsymbol\Psi \frac{\kappa_0\boldsymbol\mu_0+n\mathbf{\bar{x}}}{\kappa_0+n} ,\, \kappa_0+n,\, \nu_0+n ,\,
  \boldsymbol\Psi + \mathbf{C} + \frac{\kappa_0 n}{\kappa_0+n}(\mathbf{\bar{x}}-\boldsymbol\mu_0)(\mathbf{\bar{x}}-\boldsymbol\mu_0)^T
  •  \mathbf{\bar{x}} è la media campionaria
  • \mathbf{C} = \sum_{i=1}^n (\mathbf{x_i} - \mathbf{\bar{x}}) (\mathbf{x_i} - \mathbf{\bar{x}})^T
la media è stimata da \kappa_0 osservazioni con media campionaria \boldsymbol\mu_0; la varianza è stimata da \nu_0 osservazioni con media campionaria\boldsymbol\mu_0 e con somma di deviazioni quadratiche \boldsymbol\Psi t_{{\nu_0}'-p+1}\left(\tilde{\mathbf{x}}|{\boldsymbol\mu_0}',\frac{{\kappa_0}'+1}{{\kappa_0}'({\nu_0}'-p+1)}\boldsymbol\Psi'^{-1}\right)[5]
Normale multivariata μ (media vettore) and Λ (matrice di precisione) Wishart normale \mathbf{\boldsymbol\mu}_0,\, \kappa_0,\, \nu_0,\, \boldsymbol\Lambda_0 \frac{\kappa_0\boldsymbol\mu_0 + n\mathbf{\bar{x}}}{\kappa_0 + n} ,\, \kappa_0 + n,\, \nu_0 + n,\,
 \left( \boldsymbol\Lambda_0^{-1} + \mathbf{C} + \frac{\kappa_0 n}{\kappa_0 + n} (\mathbf{\bar{x}} - \mathbf{\boldsymbol\mu}_0) (\mathbf{\bar{x}} - \mathbf{\boldsymbol\mu}_0)^T \right)^{-1}
  • \mathbf{\bar{x}} è la media campionaria
  • \mathbf{C} = \sum_{i=1}^n (\mathbf{x_i} - \mathbf{\bar{x}}) (\mathbf{x_i} - \mathbf{\bar{x}})^T
la media è stimata da \kappa_0 osservazioni con media campionaria \boldsymbol\mu_0; la varianza è stimata da \nu_0 osservazioni con media campionaria\boldsymbol\mu_0 e con somma di deviazioni quadratiche \boldsymbol\Lambda_0^{-1} t_{{\nu_0}'-p+1}\left(\tilde{\mathbf{x}}|{\boldsymbol\mu_0}',\frac{{\kappa_0}'+1}{{\kappa_0}'({\nu_0}'-p+1)}\boldsymbol\Lambda'\right)[5]
Uniforme  U(0,\theta)\! Pareto  x_{m},\, k\!  \max\{\,x_1,\ldots,x_n,x_\mathrm{m}\},\, k+n\! k osservazioni con valore massimox_m
Pareto
con minimo noto xm
k (forma) Gamma \alpha,\, \beta\! \alpha+n,\, \beta+\sum_{i=1}^n \ln\frac{x_i}{x_{\mathrm{m}}}\! \alpha osservazioni con somma \beta dell'ordine di grandezza di ogni osservazione (cioè il logaritmo del quoziente tra ciascuna osservazione e il minimo x_m)
Weibull
con forma nota β
θ (scale) Gamma inversa[4] a, b\! a+n,\, b+\sum_{i=1}^n x_i^{\beta}\! a osservazioni con somma b della β'-esima potenza di ogni osservazione
Weibull
con fattore di scala noto θ
β (forma) \propto \beta^a e^{-b\beta -\frac{d^{\beta}}{\theta}}[4] a, b, d\! a+n,\, b-\sum_{i=1}^n \ln x_i,\, d^\beta + \sum_{i=1}^n x^\beta \! a osservazioni con somma b del logaritmo di ogni osservazione e della somma d della β'-esima potenza di ogni osservazione
Log-normale
con precisione nota τ
μ (media) Normale[4] \mu_0,\, \tau_0\!  \left.\left(\tau_0 \mu_0 + \tau \sum_{i=1}^n x_i\right)\right/(\tau_0 + n \tau),\, \tau_0 + n \tau "media" è stimata da osservazioni con precisione totale (somma di tutte le precisioni individuali)\tau_0 e con media campionaria \mu_0
Log-normale
con media nota μ
τ (precisione) Gamma[4] \alpha,\, \beta\![nota 3] \alpha + \frac{n}{2},\, \beta + \frac{\sum_{i=1}^n (\ln x_i-\mu)^2}{2}\! la precisione è stimata da 2\alpha osservazioni con varianza campione \frac{\beta}{\alpha} (cioè come somma di deviazioni log-quadratiche 2\beta — cioè deviazioni tra il logaritmo dei dati puntuali e la "media")
Esponenziale λ (rateo) Gamma \alpha,\, \beta\! [nota 3] \alpha+n,\, \beta+\sum_{i=1}^n x_i\! \alpha osservazioni che sommano a \beta
Gamma
con forma nota α
β (rateo) Gamma \alpha_0,\, \beta_0\! \alpha_0+n\alpha,\, \beta_0+\sum_{i=1}^n x_i\! \alpha_0 osservazioni con somma \beta_0 \operatorname{CG}(\tilde{\mathbf{x}}|\alpha,{\alpha_0}',{\beta_0}')=\operatorname{\beta'}(\tilde{\mathbf{x}}|\alpha,{\alpha_0}',1,{\beta_0}') [nota 6]
Gamma inversa
con forma nota α
β (scala inversa) Gamma \alpha_0,\, \beta_0\! \alpha_0+n\alpha,\, \beta_0+\sum_{i=1}^n \frac{1}{x_i}\! \alpha_0 osservazioni con somma \beta_0
Gamma
con rateo noto β
α (forma) \propto \frac{a^{\alpha-1} \beta^{\alpha c}}{\Gamma(\alpha)^b} a,\, b,\, c\! a \prod_{i=1}^n x_i,\, b + n,\, c + n\! b o c osservazioni (b per stimare \alpha, c per stimare \beta) con prodotto a
Gamma [4] α (forma), β (scala inversa) \propto \frac{p^{\alpha-1} e^{-\beta q}}{\Gamma(\alpha)^r \beta^{-\alpha s}} p,\, q,\, r,\, s \! p \prod_{i=1}^n x_i,\, q + \sum_{i=1}^n x_i,\, r + n,\, s + n \! \alpha è stimata da r osservazioni con prodotto p; \beta è stimato da s osservazioni con somma q

Note[modifica | modifica sorgente]

  1. ^ a b c d e f g h L'esatta interpretazione dei parametri di una distribuzione Beta in termini di numero di successi ed insuccessi dipende da quale funzione è usata per estrarre una stima puntuale dalla distribuzione. La moda della distribuzione Beta è \frac{\alpha - 1}{\alpha + \beta - 2}, la quale corrisponde a \alpha - 1 successi e \beta - 1 insuccessi; ma la media è \frac{\alpha}{\alpha + \beta}, la quale corrisponde a \alpha successi e \beta insuccessi. L'impiego di \alpha - 1 e \beta - 1 ha il vantaggio che una distribuzione a priori uniforme {\rm Beta}(1,1) corrisponde a 0 successi e 0 insuccessi, ma l'impiego di \alpha e \beta è in qualche modo matematicamente più conveniente ed anche ben corrisponde con l fatto che i bayesiani generalmente preferiscono usare la media a posteriori piuttosto che la moda a posteriori come stima puntuale. Lo stesso discorso si applica alla Distribuzione di Dirichlet.
  2. ^ Questa è la distribuzione predittiva a posteriori del nuovo dato puntuale \tilde{x} una volta risultati i dati puntuali, con i parametri marginalizzati fuori. Variabili con l'apostrofo indicano i valori a posteriori dei parametri.
  3. ^ a b c d β è il rateo o scala inversa. Nella parametrizzazione della distribuzione Gamma,θ = 1/β e k = α.
  4. ^ Questa è la distribuzione predittiva a posteriori di un nuovo dato puntuale \tilde{x} una volta risultanti i dati puntuali osservati, con i parametri marginalizzati fuori. Variabili con l'apostrofo indicano i valori a posteriori dei parametri. \mathcal{N} e t_n si riferiscono alla Distribuzione normale ed alla Distribuzione t di Student, rispettivamente, o alla distribuzione normale multivariata e alla distribuzione t multivariata nei casi multivariati.
  5. ^ In termini della Gamma inversa, \beta e un parametro di scala
  6. ^ \operatorname{CG}() e una distribuzione Gamma composta; \operatorname{\beta'}() qui è una distribuzione Beta del secondo tipo generalizzata (distribuzione Beta del secondo tipo generalizzata).

Bibliografia[modifica | modifica sorgente]

  1. ^ Howard Raiffa and Robert Schlaifer. Applied Statistical Decision Theory. Division of Research, Graduate School of Business Administration, Harvard University, 1961.
  2. ^ Jeff Miller et al. Earliest Known Uses of Some of the Words of Mathematics, "conjugate prior distributions". Electronic document, revision of November 13, 2005, retrieved December 2, 2005.
  3. ^ Andrew Gelman, John B. Carlin, Hal S. Stern, and Donald B. Rubin. Bayesian Data Analysis, 2nd edition. CRC Press, 2003. ISBN 1-58488-388-X.
  4. ^ a b c d e f D. Fink, A Compendium of Conjugate Priors in DOE contract 95‑831, 1997. CiteSeerX10.1.1.157.5540.
  5. ^ a b c d e f g h i j k l m Murphy, Kevin P. (2007). "Conjugate Bayesian analysis of the Gaussian distribution." [1]

Collegamenti esterni[modifica | modifica sorgente]