Stima del massimo a posteriori

Da Wikipedia, l'enciclopedia libera.

In statistica bayesiana, una stima del massimo della probabilità a posteriori, o brevemente massimo a posteriori, MAP (da maximum a posteriori probability), è una moda della distribuzione a posteriori. La stima del MAP può essere usata per ottenere una stima puntuale di una quantità inosservata sulla base di dati empirici. È strettamente correlata al metodo di Fisher di massima verosimiglianza, ML (da maximum likelihood), ma impiega un obiettivo di massimizzazione incrementato che incorpora una distribuzione a priori sopra la quantità che si vuole stimare. La stima della MAP può perciò essere vista come una regolarizzazione della stima di ML.

Descrizione[modifica | modifica sorgente]

Assumiamo di voler stimare un parametro di popolazione \theta sulla base di osservazioni x. Sia f la distribuzione campionaria di x, in modo tale che f(x|\theta) è la probabilità di x quando il parametro della sottostante popolazione è \theta. Allora la funzione:

\theta \mapsto f(x | \theta) \!

è nota come la funzione di verosimiglianza e la stima

\hat{\theta}_{\mathrm{ML}}(x) = \underset{\theta}{\operatorname{arg\,max}} \ f(x | \theta) \!

è la stima di \theta di massima verosimiglianza.

Ora supponiamo che esista una distribuzione a priori g sopra \theta. Questo ci permette di trattare \theta come una variabile casuale come in statistica bayesiana. Quindi la distribuzione a posteriori di \theta è data come segue:

\theta \mapsto f(\theta | x) = \frac{f(x | \theta) \, g(\theta)}{\displaystyle\int_{\vartheta \in \Theta} f(x | \vartheta) \, g(\vartheta) \, d\vartheta} \!

dove g è funzione di densità di \theta, mentre \Theta è il dominio di g. Questa è un'applicazione diretta del teorema di Bayes.

Il metodo di stima del MAP esegue quindi una stima di \theta come la moda della distribuzione a posteriori di questa variabile casuale:

\hat{\theta}_{\mathrm{MAP}}(x)
= \underset{\theta}{\operatorname{arg\,max}} \ \frac{f(x | \theta) \, g(\theta)}
  {\displaystyle\int_{\vartheta} f(x | \vartheta) \, g(\vartheta) \, d\vartheta}
= \underset{\theta}{\operatorname{arg\,max}} \ f(x | \theta) \, g(\theta).
\!

Il denominatore della distribuzione a posteriori (la cosiddetta funzione di partizione) non dipende da \theta e perciò non gioca alcun ruolo nell'ottimizzazione. Si osservi che la stima del MAP è un limite di stimatori di Bayes sotto una sequenza di funzioni di perdita 0-1, ma non di per sé stesso uno stimatore bayesiano, a meno che \theta sia discreta. [senza fonte]

Calcolo[modifica | modifica sorgente]

Esistono vari modi per calcolare stime del MAP:

  1. Analiticamente, quando la moda della distribuzione a posteriori può essere fornita in forma chiusa. Questo è il caso quando vengono utilizzate distribuzioni a priori coniugate.
  2. Mediante ottimizzazione numerica come nel metodo del gradiente coniugato o nel metodo di ottimizzazione di Newton. Questi solitamente richiedono la conoscenza delle derivate prima e/o seconda, le quali devono essere determinate analiticamente o numericamente.
  3. Mediante modifica di un algoritmo di massimizzazione del valore atteso. Questo metodo non richiede la determinazione delle derivate della densità a posteriori.
  4. Mediante un metodo Monte Carlo usando la tecnica di simulated annealing.

Critiche[modifica | modifica sorgente]

Nonostante la stima del MAP sia un (processo di) limite di stimatori bayesiani (sotteso dalla funzione perdita (loss function) 0-1), in generale essa non è veramente rappresentativa dei metodi bayesiani. Questo perché le stime del MAP sono stime puntuali, mentre i metodi bayesiani sono caratterizzati dall'impiego di distribuzioni con lo scopo di riassumere i dati e generare inferenze. Infatti i metodi bayesiani tendono a riportare media e mediana a posteriori, assieme agli intervalli di confidenza bayesiani. Questo sia perché questi stimatori sono ottimali sotto funzioni di perdita di tipo errore quadratico ed errore lineare rispettivamente, i quali sono maggiormente rappresentativi delle tipiche funzioni di perdita, sia perché la distribuzione a posteriori può non avere una forma analitica semplice: in questo caso, la distribuzione può essere simulata usando tecniche di catena di Markov Monte Carlo, mentre l'ottimizzazione per trovare la sua moda può essere difficoltosa o impossibile.

In molti tipi di modelli, come la mistura di distribuzioni, la distribuzione a posteriori può essere multimodale. Il tal caso la raccomandazione solita è che si dovrebbe scegliere la moda più alta: questo non sempre è fattibile (l'ottimizzazione globale è un problema difficile), né in vari casi possibile (ad esempio quando sorgono problemi di identificabilità ossia quando i valori di uno o più parametri di una distribuzione non sono inferibili da campionamenti ripetuti o viceversa quando la variazione di tali valori non produce distribuzioni distinte). Inoltre, la moda più alta può non caratterizzare la distribuzione a posteriori.

Finalmente, dissimilmente dagli stimatori di massima verosimiglianza, la stima del MAP non è invariante sotto riparametrizzazione. La commutazione da una parametrizzazione ad un'altra implica l'introduzione di uno jacobiano che influisce sulla posizione del massimo.

Come esempio della differenza tra gli stimatori bayesiani sopra menzionati (stimatori della media e della mediana) e l'uso di una stima del MAP, consideriamo un caso dove sussiste la necessità di classificare il dato in ingresso x come positivo o negativo (per esempio, un prestito come rischioso o sicuro). Supponiamo che ci siano tre possibili ipotesi circa il metodo corretto di classificazione h_1, h_2 ed h_3 con probabilità a posteriori rispettivamente 0.4, 0.3 e 0.3. Supponiamo che ottenuto un nuovo dato, x, h_1 lo classifichi come positivo, mentre gli altri due come negativo. Usando la stima del MAP questo sceglierà come metodo di classificazione corretto h_1, classificando quindi x come positivo, mentre gli stimatori di Bayes medierebbero sopra tutte le ipotesi pesando i tre metodi e classificando quindi x come negativo.

Esempio[modifica | modifica sorgente]

Supponiamo di avere una data sequenza (x_1, \dots, x_n) di variabili casuali con distribuzioni individuali identiche (IID, Individual Identical Distribution) N(\mu,\sigma_v^2 ) e che sia data una distribuzione a priori di \mu, N(\mu_0,\sigma_m^2 ). Desideriamo trovare la stima del MAP di \mu.

La funzione da massimizzare è data da

f(\mu) f(x | \mu)=\pi(\mu) L(\mu) =  \frac{1}{\sqrt{2 \pi} \sigma_m} \exp\left(-\frac{1}{2} \left(\frac{\mu-\mu_0}{\sigma_m}\right)^2\right) \prod_{j=1}^n \frac{1}{\sqrt{2 \pi} \sigma_v} \exp\left(-\frac{1}{2} \left(\frac{x_j - \mu}{\sigma_v}\right)^2\right),

che equivale a minimizzare la seguente funzione di \mu:

 \sum_{j=1}^n \left(\frac{x_j - \mu}{\sigma_v}\right)^2 + \left(\frac{\mu-\mu_0}{\sigma_m}\right)^2.

Perciò, vediamo che lo stimatore del MAP per \mu è dato da

\hat{\mu}_{MAP} =     \frac{n \sigma_m^2}{n \sigma_m^2 + \sigma_v^2 } \left(\frac{1}{n} \sum_{j=1}^n x_j \right) + \frac{\sigma_v^2}{n \sigma_m^2 + \sigma_v^2 } \mu_0.

che risulta essere una interpolazione lineare pesata tramite le loro rispettive covarianze della media a priori e della media del campione.

Il caso di \sigma_m \to \infty è chiamata una distribuzione a priori non informativa e conduce ad una distribuzione di probabilità a priori mal definita; in questo caso \hat{\mu}_{MAP} \to \hat{\mu}_{ML}.

Bibliografia[modifica | modifica sorgente]

  • M. DeGroot, Optimal Statistical Decisions, McGraw-Hill, (1970).
  • Harold W. Sorenson, (1980) "Parameter Estimation: Principles and Problems", Marcel Dekker.
statistica Portale Statistica: accedi alle voci di Wikipedia che trattano di statistica