Informazione di Fisher

Da Wikipedia, l'enciclopedia libera.

In statistica e teoria dell'informazione, l'informazione di Fisher è la varianza dello score (derivata logaritmica) associato a una data funzione di verosimiglianza. L'informazione di Fisher, che prende il nome dal celebre genetista e statistico Ronald Fisher, può essere interpretata come l'ammontare di informazione contenuta da una variabile casuale osservabile \ X, concernente un parametro non osservabile \ \vartheta, da cui dipende la distribuzione di probabilità di \ X.

Denotando l'informazione di Fisher con \ \mathcal{I}(\vartheta), poiché il valore atteso dello score è nullo, la sua varianza è pari al suo momento del secondo ordine, così che:

\ \mathcal{I}(\vartheta)=\mbox{E}\left[\left(\frac{\partial}{\partial\vartheta}\ln f(X;\vartheta)\right)^{2}\right]

dove \ f(X;\vartheta) denota la funzione di verosimiglianza. Una scrittura equivalente è:

\ \mathcal{I}(\vartheta)=-\mbox{E}\left[\frac{\partial^{2}}{\partial\vartheta^{2}}\ln f(X;\vartheta)\right]

ossia il valore atteso della derivata seconda della funzione di verosimiglianza rispetto a \ \vartheta; l'informazione di Fisher può dunque essere letta come una misura della curvatura della verosimiglianza in corrispondenza della stima di massima verosimiglianza per \ \vartheta. Una verosimiglianza piatta, con una derivata seconda modesta, comporterà minore informazione, laddove una maggior curva apporterà una maggiore quantità di informazione.

Proprietà[modifica | modifica wikitesto]

Additività[modifica | modifica wikitesto]

L'informazione di Fisher è additiva, nel senso che l'informazione relativa a due esperimenti indipendenti è la somma delle informazioni associate a ciascuno di essi:

\ \mathcal{I}_{X,Y}(\vartheta)=\mathcal{I}_{X}(\vartheta)+\mathcal{I}_{Y}(\vartheta)

Il risultato discende immediatamente dal fatto che la varianza della somma di due variabili casuali indipendenti è la somma delle loro varianze. Ne consegue che l'informazione contenuta in un campione casuale di \ n osservazioni indipendenti è pari a \ n volte l'informazione contenuta in una singola osservazione.

Informazione di Fisher e sufficienza[modifica | modifica wikitesto]

L'informazione di Fisher contenuta da una statistica sufficiente è la stessa contenuta nell'intero campione \ X su cui la statistica è calcolata. Il risultato segue dal criterio di fattorizzazione per la sufficienza di una statistica: se \ T(\cdot) è una statistica sufficiente per \ \vartheta, allora esistono due funzioni \ g(\cdot), \ h(\cdot) tali che:

\ f(X;\vartheta)=g(T(X);\vartheta)h(X)

(si veda l'articolo sufficienza (statistica) per una spiegazione più dettagliata). L'uguaglianza dell'informazione di Fisher discende allora da:

\ \frac{\partial}{\partial\vartheta}\ln f(X;\vartheta)=\frac{\partial}{\partial\vartheta}\ln g(T(X);\vartheta)

poiché \ h(X) non dipende da \ \vartheta. In generale, inoltre, se \ T=t(X) è una statistica, allora:

\ \mathcal{I}_{T}(\vartheta)\leq\mathcal{I}_{X}(\vartheta)

dove l'uguaglianza vige solo per statistiche sufficienti.

Informazione di Fisher ed efficienza[modifica | modifica wikitesto]

La disuguaglianza di Cramér-Rao stabilisce un collegamento tra informazione di Fisher e varianza di uno stimatore corretto; in particolare, dato uno stimatore corretto per il parametro \ \vartheta, \ \hat{\vartheta}:

\ \mbox{var}\left(\hat{\vartheta}\right)\geq\frac{1}{\mathcal{I}(\vartheta)}

Illustrazione[modifica | modifica wikitesto]

Si consideri il caso di un campione di \ n osservazioni indipendenti, bernoulliane, ciascuna con una probabilità di "successo" \ \vartheta. L'informazione di Fisher associata può essere calcolata come segue; sia \ A il numero dei "successi", e \ B il numero di "insuccessi", con ovviamente: \ n=A+B; allora:

\ \mathcal{I}(\vartheta)=-\mbox{E}\left[\frac{\partial^{2}}{\partial\vartheta^{2}}\ln f(A;\vartheta)\right]=
\ = - \mbox{E}\left[\frac{\partial^{2}}{\partial\vartheta^{2}}\ln\left(\vartheta^{A}(1-\vartheta)^{B}\frac{(A+B)!}{A!B!}\right)\right]=
\ =-\mbox{E}\left[\frac{\partial^{2}}{\partial\vartheta^{2}}\left(A\ln\vartheta+B\ln(1-\vartheta)+\ln\frac{(A+B)!}{A!B!}\right)\right]=
\ =-\mbox{E}\left[\frac{\partial}{\partial\vartheta}\left(\frac{A}{\vartheta}+\frac{B}{1-\vartheta}\right)\right]=
\ =\mbox{E}\left[\frac{A}{\vartheta^{2}}+\frac{B}{(1-\vartheta)^{2}}\right]=
\ =\frac{n\vartheta}{\vartheta^{2}}+\frac{n(1-\vartheta)}{(1-\vartheta)^{2}}=\frac{n}{\vartheta(1-\vartheta)}

Il risultato è in accordo con l'intuizione circa la natura del problema in esame, in quanto \ \mathcal{I}(\vartheta) è in questo caso il reciproco della varianza della media delle \ n osservazioni Bernoulliane.

Informazione di Fisher nel caso multivariato[modifica | modifica wikitesto]

Nel caso in cui vi sia un vettore di parametri \ \boldsymbol{\theta}=\begin{bmatrix}\vartheta_{1}&\vartheta_{2}&\cdots&\vartheta_{d}\end{bmatrix}'\in\mathbb{R}^{d}, l'informazione di Fisher è una matrice quadrata di dimensione \ d, con elemento \ (m,n) definito da:

\ \mathcal{I}(\vartheta)_{m,n} = \mbox{E}\left[\frac{\partial}{\partial\vartheta_{m}}\ln f(X;\boldsymbol{\theta})\frac{\partial}{\partial\vartheta_{n}}\ln f(X;\boldsymbol{\theta})\right]

L'informazione di Fisher è in tal caso, inoltre, una matrice simmetrica, nonché definita positiva, e definisce una metrica sullo spazio dei parametri; queste ultime considerazioni rientrano nell'ambito di applicazione della geometria differenziale (si veda anche metrica dell'informazione di Fisher).

Illustrazione: variabile casuale normale multivariata[modifica | modifica wikitesto]

Considerando un vettore aleatorio \ \mathbf{x}\sim\mathcal{N}\left(\mu(\boldsymbol{\theta}),\Sigma(\boldsymbol{\theta})\right) di dimensione \ N, la matrice informazione di Fisher associata ha per generico elemento di ordine \ (m,n):


\mathcal{I}(\boldsymbol{\theta})_{m,n}
=
\frac{\partial \mu}{\partial \vartheta_m}
\Sigma^{-1}
\frac{\partial \mu'}{\partial \vartheta_n}
+
\frac{1}{2}
\mathrm{tr}
\left(
 \Sigma^{-1}
 \frac{\partial \Sigma}{\partial \vartheta_m}
 \Sigma^{-1}
 \frac{\partial \Sigma}{\partial \vartheta_n}
\right)

dove:

  • 
\frac{\partial \mu}{\partial \vartheta_m}
=
\begin{bmatrix}
 \frac{\partial \mu_1}{\partial \vartheta_m} &
 \frac{\partial \mu_2}{\partial \vartheta_m} &
 \cdots &
 \frac{\partial \mu_N}{\partial \vartheta_m} &
\end{bmatrix}
  • 
\frac{\partial \mu'}{\partial \vartheta_m}
=
\left(
 \frac{\partial \mu}{\partial \vartheta_m}
\right)'
=
\begin{bmatrix}
 \frac{\partial \mu_1}{\partial \vartheta_m} \\  \\
 \frac{\partial \mu_2}{\partial \vartheta_m} \\  \\
 \vdots \\  \\
 \frac{\partial \mu_N}{\partial \vartheta_m}
\end{bmatrix}
  • 
\frac{\partial \Sigma}{\partial \vartheta_m}
=
\begin{bmatrix}
 \frac{\partial \Sigma_{1,1}}{\partial \vartheta_m} &
 \frac{\partial \Sigma_{1,2}}{\partial \vartheta_m} &
 \cdots &
 \frac{\partial \Sigma_{1,N}}{\partial \vartheta_m} \\  \\
 \frac{\partial \Sigma_{2,1}}{\partial \vartheta_m} &
 \frac{\partial \Sigma_{2,2}}{\partial \vartheta_m} &
 \cdots &
 \frac{\partial \Sigma_{2,N}}{\partial \vartheta_m} \\  \\
 \vdots & \vdots & \ddots & \vdots \\  \\
 \frac{\partial \Sigma_{N,1}}{\partial \vartheta_m} &
 \frac{\partial \Sigma_{N,2}}{\partial \vartheta_m} &
 \cdots &
 \frac{\partial \Sigma_{N,N}}{\partial \vartheta_m}
\end{bmatrix}

e \ \textrm{tr}(\cdot) denota l'operatore traccia della matrice.

Informazione osservata[modifica | modifica wikitesto]

Accanto all'informazione di Fisher, detta anche informazione attesa, si definisce l'informazione osservata, come l'opposto della derivata seconda della log-verosimiglianza calcolato in corrispondenza alla stima di massima verosimiglianza:

\ \mathcal{J}(\hat{\vartheta})=-\frac{\partial^{2}}{\partial\hat{\vartheta}^{2}}\ln f(X;\hat{\vartheta}).

A livello interpretativo si può dire che l'informazione attesa, che dipende dal parametro ma non dal campione, è una misura dell'informazione portata da un generico campione per il dato esperimento, mentre l'informazione osservata, che dipende solo dal campione, misura l'informazione portata dal campione osservato.

Sotto opportune ipotesi l'informazione osservata è uno stimatore consistente dell'informazione attesa.

Voci correlate[modifica | modifica wikitesto]

matematica Portale Matematica: accedi alle voci di Wikipedia che trattano di matematica