Metodo della massima verosimiglianza

Da Wikipedia, l'enciclopedia libera.

Il metodo della massima verosimiglianza, in statistica, è un procedimento matematico per determinare uno stimatore. Caso particolare della più ampia classe di metodi di stima basata sugli stimatori d'estremo, il metodo consiste nel massimizzare la funzione di verosimiglianza, definita in base alla probabilità di osservare una data realizzazione campionaria, condizionatamente ai valori assunti dai parametri statistici oggetto di stima. Il metodo è stato sviluppato, originariamente, dal genetista e statistico sir Ronald Fisher, tra il 1912 e il 1922.

Filosofia del metodo della massima verosimiglianza[modifica | modifica wikitesto]

Data una distribuzione di probabilità \ D, con funzione di massa (o densità, se continua) di probabilità \ \mathcal{L}_D, caratterizzata da un parametro \ \vartheta, dato un campione di dati osservati \ \left\{x_{i}\right\}_{i=1}^{n} di dimensione \ n si può calcolare la probabilità associata ai dati osservati:

\ P(\left\{x_{i}\right\}_{i=1}^{n}\ | \vartheta)=\mathcal{L}_{D}(\vartheta | \left\{x_{i}\right\}_{i=1}^{n})

D'altra parte, può darsi che il parametro \ \vartheta sia ignoto, sebbene sia noto che il campione è estratto dalla distribuzione \ D. Un'idea per stimare \ \vartheta è allora utilizzare i dati a nostra disposizione: \ \left\{x_{i}\right\}_{i=1}^{n} per ottenere informazioni su \ \vartheta.

Il metodo della massima verosimiglianza ricerca il valore più verosimile di \ \vartheta, ossia ricerca, all'interno dello spazio \ \Theta di tutti i possibili valori di \ \vartheta, il valore del parametro che massimizza la probabilità di aver ottenuto il campione dato. Da un punto di vista matematico, \mathcal{L}_{D}(\vartheta | \left\{x_{i}\right\}_{i=1}^{n}) o equivalentemente \ \mathcal{L}_{D}(\vartheta|x_{1},\ldots,x_{n}) è detta funzione di verosimiglianza, e lo stimatore di massima verosimiglianza è ottenuto come:

\ \hat{\vartheta}=\arg\max_{\vartheta\in\Theta}\mathcal{L}_{D}\left(\vartheta|x_{1},\ldots,x_{n}\right)

Esempi[modifica | modifica wikitesto]

Al fine di illustrare il metodo della massima verosimiglianza, si consideri un campione \ \{x_{i}\}_{i=1}^{n} di variabili casuali identicamente e indipendentemente distribuite, con distribuzione normale: \ x_{i}\sim N(\mu,\sigma^{2})\ \forall i. La funzione di verosimiglianza associata è:

\ \mathcal{L}\left(\mu,\sigma^{2}|\{x_{i}\}_{i}\right)=\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi\sigma^{2}}}\exp\left\{-\frac{1}{2}\left(\frac{x_{i}-\mu}{\sigma}\right)^{2}\right\}

La massimizzazione della funzione di verosimiglianza è equivalente a massimizzarne il logaritmo:

\ L\left(\mu,\sigma^{2}|\{x_{i}\}_{i}\right)=\ln\mathcal{L}\left(\mu,\sigma^{2}|\{x_{i}\}_{i}\right)=-\frac{n}{2}\ln(2\pi\sigma^{2})-\frac{1}{2}\sum_{i=1}^{n}\left(\frac{x_{i}-\mu}{\sigma}\right)^{2}

I parametri \ \mu e \ \sigma^{2} sono determinati risolvendo il problema di massimo:

\ \{\mu,\sigma^{2}\}=\arg\max_{\mu,\sigma^{2}}L\left(\mu,\sigma^{2}|\{x_{i}\}_{i}\right)

Le condizioni del primo ordine per un massimo definiscono il seguente sistema di equazioni in \ \mu e \ \sigma^{2}:

\ \frac{\partial L}{\partial\mu}=\frac{1}{\hat{\sigma}^{2}}\sum_{i}(x_{i}-\hat{\mu})=0
\ \frac{\partial L}{\partial\sigma^{2}}=-\frac{n}{2}\frac{1}{\hat{\sigma}^{2}}+\frac{1}{2\hat{\sigma}^{4}}\sum_{i}(x_{i}-\hat{\mu})^{2}=0

dove i segni di apice sopra i parametri denotano i loro stimatori. Dalla prima equazione discende immediatamente lo stimatore di massima verosimiglianza per la media:

\ \hat{\mu}=\frac{1}{n}\sum_{i=1}^{n}x_{i}

cioè la media campionaria. La varianza dello stimatore \ \hat{\mu} è data dalla seguente espressione[1]:

\ \textrm{var}(\hat{\mu})=\textrm{var}\left(\frac{1}{n}\sum_{i=1}^{n}x_{i}\right)=\frac{1}{n^{2}}\sum_{i=1}^{n}\textrm{var}(x_{i})=\frac{\sigma^{2}}{n}

Sostituendo \ \hat{\mu} nella seconda equazione, si ha lo stimatore di massima verosimiglianza per la varianza:

\ \hat{\sigma}^{2}=\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\hat{\mu})^{2}

cioè la varianza campionaria.

L'esempio è particolarmente calzante, perché consente di illustrare alcune proprietà degli stimatori di massima verosimiglianza. È immediato verificare la correttezza (o unbiasedness) di \ \hat{\mu}:

\ \textrm{E}[\hat{\mu}]=\textrm{E}\left[\frac{1}{n}\sum_{i=1}^{n}x_{i}\right]=\frac{1}{n}\sum_{i=1}^{n}\textrm{E}[x_{i}]=\mu

D'altra parte, \ \hat{\sigma}^{2} non gode di tale proprietà. Ricordando che:

\ \sum_{i}(x_{i}-\mu)^{2}=\sum_{i}(x_{i}-\hat{\mu})^{2}+n(\hat{\mu}-\mu)^{2}

segue che:

\ \textrm{E}[\hat{\sigma}^{2}]=\frac{1}{n}\textrm{E}\left(\sum_{i=1}^{n}(x_{i}-\hat{\mu})^{2}\right)=\frac{1}{n}\textrm{E}\left[\sum_{i}(x_{i}-\mu)^{2}-n(\hat{\mu}-\mu)^{2}\right]=\frac{n-1}{n}\sigma^{2}

Dunque \ \hat{\sigma}^{2} non è uno stimatore corretto; un tale stimatore sarebbe dato dalla statistica:

\ \hat{s}^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(x_{i}-\hat{\mu})^{2}

Val la pena d'altra parte di osservare che lo stimatore di massima verosimiglianza è comunque uno stimatore asintoticamente corretto; infatti:

\ \lim_{n\rightarrow\infty}\textrm{E}[\hat{\sigma}^{2}]=\lim_{n\rightarrow\infty}\frac{n-1}{n}\sigma^{2}=\sigma^{2}

In particolare, qualunque stimatore di massima verosimiglianza è asintoticamente corretto e asintoticamente normalmente distribuito.

L'espressione per la varianza dello stimatore \ \hat{\sigma}^{2} è al di là degli scopi di questo esempio.

È interessante osservare che gli stimatori derivati in questa sezione sono identici a quelli ottenibili, nelle stesse condizioni, impiegando il metodo dei momenti; a scanso di equivoci, si precisa che i due metodi di ricerca degli stimatori non conducono necessariamente a individuare gli stessi stimatori in condizioni più generali.

Casi patologici[modifica | modifica wikitesto]

Al di là dei problemi evidenziati negli esempi sopra, altre difficoltà, di portata più generale, possono essere associate agli stimatori di massima verosimiglianza.

Il valore dello stimatore di massima verosimiglianza può non appartenere allo spazio dei parametri \ \Theta. Si consideri il caso di un campione \ \left\{X_i\right\}_{i=1}^n di v.c. identicamente e indipendentemente distribuite, con distribuzione di Poisson di parametro  \lambda>0. La funzione di verosimiglianza associata è:

\ \mathcal{L}\left(\lambda|\left\{X_i\right\}_{i=1}^n\right)=\frac{e^{-n\lambda}\lambda^{\sum_i X_i}}{\prod_{i=1}^n X_i!}

Così che la funzione di log-verosimiglianza risulta:

\ L\left(\lambda|\left\{X_i\right\}_{i=1}^n\right)=-n\lambda+\ln\lambda\sum_iX_i-\ln\left(\prod_{i=1}^n X_i!\right)

Lo stimatore di massima verosimiglianza sarebbe dunque \ \hat{\lambda}=\frac{1}{n}\sum_iX_i. Si supponga tuttavia che \ \bar{X}=\frac{1}{n}\sum_iX_i=0; poiché \ 0\notin\Theta=\mathbb{R}_{+}, la stima ottenuta con il metodo della massima verosimiglianza non è ammissibile.

A prima vista il problema potrebbe apparire un dettaglio matematico di scarso rilievo nella pratica; la sua portata nelle applicazioni è tuttavia più rilevante di quanto sembri. Restando nell'ambito dell'esempio testé esposto, si osservi che la variabile casuale poissoniana è spesso utilizzata come modello per il numero di arrivi a uno sportello, un ufficio, la fermata di un autobus, etc. (si tratta di un'applicazione della teoria delle code, che fa per la precisione riferimento al processo di Poisson); in tale contesto, \lambda rappresenta il tasso atteso di arrivi per unità di tempo. È chiaro che ipotizzare \lambda=0 in qualche misura snatura il processo sotto esame: può darsi che, nell'intervallo di tempo corrispondente al campione utilizzato per la stima, nessun cliente sia arrivato allo sportello (nessun passeggero alla fermata dell'autobus, etc.); ciò non significa che ci si debba aspettare che nessun cliente (o passeggero, etc.) arrivi mai!

Lo stimatore di massima verosimiglianza, inoltre, non è necessariamente unico. Si consideri, ad esempio, il caso di un campione \ \left\{X_i\right\}_{i=1}^{n} di variabili casuali identicamente e indipendentemente distribuite, aventi distribuzione uniforme sull'intervallo \ [\vartheta-1/2,\vartheta+1/2], con \ \vartheta\in\mathbb{R}. La funzione di verosimiglianza associata è:

\ \mathcal{L}(\vartheta|\left\{X_i\right\}_{i=1}^n)=\mathbf{1}_{\left\{X_i\in[\vartheta-\frac{1}{2},\vartheta+\frac{1}{2}],\ i=1,\ldots,n\right\}}

dove \ \mathbf{1} denota la funzione indicatrice. Si supponga che il campione sia ordinato in modo tale che:

\ X_1\leq X_2\leq\cdots\leq X_n

(tale ipotesi è lecita in quanto le \ X_i sono indipendentemente distribuite). È facile mostrare che:

\ \mathcal{L}(\vartheta|\left\{X_i\right\}_{i=1}^n)=\left\{
\begin{matrix}
1&\iff&X_n-\frac{1}{2}\leq\vartheta\leq X_1+\frac{1}{2}\\
0& &\textrm{altrimenti}
\end{matrix}\right.

Ne consegue che lo stimatore di massima verosimiglianza per \ \vartheta è unico se e solo se \ X_n-X_1=1; diversamente, un numero infinito di valori dello stimatore \ \hat{\vartheta} massimizza la funzione di verosimiglianza.

Proprietà degli stimatori di massima verosimiglianza[modifica | modifica wikitesto]

Invarianza funzionale[modifica | modifica wikitesto]

Se \ \hat{\vartheta} è lo stimatore di massima verosimiglianza per il parametro \ \vartheta, allora lo stimatore di massima verosimiglianza per \ \alpha=g\left(\vartheta\right) è \ \hat{\alpha}=g\left(\hat{\vartheta}\right), purché \ g sia una funzione biiettiva.

Distorsione[modifica | modifica wikitesto]

Gli stimatori di massima verosimiglianza, come illustrato negli esempi, possono essere distorti (cioè non corretti o all'inglese biased), anche in maniera consistente. D'altra parte essi sono asintoticamente corretti.

Efficienza e comportamento asintotico[modifica | modifica wikitesto]

Gli stimatori di massima verosimiglianza non conseguono in generale il limite inferiore per la varianza stabilito dal risultato di Cramér-Rao, lo conseguono però asintoticamente, cioè la varianza si discosta dal limite inferiore di Cramér-Rao per una quantità infinitesima al crescere di n. Gli stimatori di massima verosimiglianza sono inoltre asintoticamente normalmente distribuiti.

Bibliografia[modifica | modifica wikitesto]

  • D. C. Boes, F. A. Graybill, A. M. Mood (1988), Introduzione alla Statistica, McGraw-Hill Libri Italia, ISBN 88-386-0661-7 (testo sui fondamenti della statistica matematica, con diversi capitoli sui metodi di ricerca degli stimatori)

Voci correlate[modifica | modifica wikitesto]

Note[modifica | modifica wikitesto]

  1. ^ Si tengano a mente le proprietà di linearità della varianza.