Criterio informativo della devianza

Il criterio informativo della devianza, DIC (deviance information criterion), è una generalizzazione di modellizzazione gerarchica del criterio informativo di Akaike (AIC, Akaike information criterion) e dello Schwarz Criterion (BIC). È particolarmente utile nei problemi di scelta di modelli bayesiani in cui le distribuzioni a posteriori dei modelli è stata ottenuta mediante simulazione MCMC. Analogamente all'AIC e al BIC, il DIC è una approssimazione asintotica che migliora ampliando la dimensione del campione di dati. È valida solamente quando la distribuzione a posteriori è approssimativamente di tipo normale multivariata.

Definiamo la devianza come $D(\theta )=-2\log(p(y|\theta ))+C\,$ , dove $y\,$ rappresenta i dati, $\theta \,$ i parametri incogniti del modello e $p(y|\theta )\,$ è la funzione di verosimiglianza. $C\,$ è una costante che può essere trascurata in tutti i calcoli cui vengono confrontati modelli differenti, e in quanto tale non richiede di essere calcolata.

Il valore atteso ${\bar {D}}=\mathbf {E} ^{\theta }[D(\theta )]$ è una misura di quanto il modello si adatta ai dati; maggiore è il valore atteso, peggiore è l'adattamento e quindi la bontà del modello.

Il numero di parametri efficace del modello è calcolato come $p_{D}={\bar {D}}-D({\bar {\theta }})$ , dove ${\bar {\theta }}$ è il valore atteso di $\theta \,$ . Maggiore è il valore atteso, più facile è per il modello adattarsi ai dati.

Il DIC è calcolato come

{\mathit {DIC}}=p_{D}+{\bar {D}}.

L'idea è quella per cui modelli con valore di DIC piccolo dovrebbero essere preferiti a quelli con DIC grande. I modelli sono penalizzati mediante il valore di ${\bar {D}}$ , il quale favorisce un buon adattamento ai dati, ma anche (in comune con AIC e BIC) mediante il numero di parametri efficace $p_{D}\,$ . poiché ${\bar {D}}$ diminuisce all'aumentare del numero di parametri, il termine $p_{D}\,$ compensa per questo effetto favorendo modelli con un numero piccolo di parametri.

Nel caso di scelta tra modelli bayesiani, il vantaggio del DIC rispetto agli altri è di essere più facilmente calcolabile da campioni generati mediante simulazioni Monte Carlo basate su catene di Markov, MCMC (Markov Chain Monte Carlo). I criteri AIC e BIC richiedono il calcolo del massimo della verosimiglianza sopra il parametro $\theta \,$ , e questo non è direttamente reso disponibile da una simulazione MCMC. Invece per calcolare il valore del DIC, semplicemente si calcola ${\bar {D}}$ come la media di $D(\theta )\,$ sopra i campioni di $\theta \,$ , mentre $D({\bar {\theta }})$ come il valore di $D\,$ calcolato sulla media dei campioni di $\theta \,$ . Il valore del DIC segue allora direttamente da queste approssimazioni. Claeskens e Hjort (2008, Cap. 3.5) mostrano che il DIC è equivalente per campionamenti estesi alla naturale versione robusta (in termini di modello) dell'AIC.

Nella derivazione del DIC, la famiglia parametrica di distribuzioni di probabilità specificata, e che genera le osservazioni future, include il modello vero. Questa assunzione non è sempre valida e in tale scenario è auspicabile considerare delle procedure di accertamento del modello. Inoltre, anche i dati osservati sono impiegati per costruire la distribuzione a posteriori e per determinare i modelli stimati. Perciò, il DIC tende a prediligere modelli sovra-adattati ai dati. Recentemente questi problemi sono stati risolti da Ando (2007) sviluppando criteri di scelta del modello bayesiano a partire da un punto di vista predittivo, BPIC (Bayesian model selection criteria).

Per evitare i problemi di sovra-adattamento del DIC, Ando (2012) ha sviluppato un criterio di selezione del modello bayesiano da un punto di vista predittivo. Il criterio è calcolato come: