Disuguaglianza di Cramér-Rao

Da Wikipedia, l'enciclopedia libera.

In statistica, la disuguaglianza di Cramér-Rao, che prende il nome da Harald Cramér e Calyampudi Radhakrishna Rao, afferma che il reciproco della matrice informazione di Fisher \ \mathcal{I}(\vartheta) per un parametro \ \vartheta costituisce un limite inferiore alla varianza di uno stimatore corretto per il parametro (denotato \ \hat{\vartheta}):

\ \mbox{var}\left(\hat{\vartheta}\right)\geq\frac{1}{\mathcal{I}(\vartheta)}=\frac{1}{\mbox{E}\left[\left(\frac{\partial}{\partial\vartheta}\ln f(X;\vartheta)\right)^{2}\right]}

In alcuni casi, non esiste uno stimatore corretto che consegue il limite inferiore così stabilito.

Non è infrequente trovare riferimenti alla disuguaglianza di Cramér-Rao come al limite inferiore di Cramér-Rao.

Si ritiene che il matematico francese Maurice René Fréchet fu il primo a scoprire e dimostrare questa disuguaglianza.[1]

Condizioni di regolarità[modifica | modifica wikitesto]

La disuguaglianza di Cramér-Rao si fonda su due deboli condizioni di regolarità che caratterizzano la funzione di densità \ f(x;\vartheta), e lo stimatore adottato, \ T(X). Tali condizioni richiedono che:

\ \frac{\partial}{\partial\vartheta}\ln f(x;\vartheta)<\infty
\ \frac{\partial}{\partial\vartheta}\left[\int T(x)f(x;\vartheta)dx\right]=\int T(x)\left[\frac{\partial}{\partial\vartheta}f(x;\vartheta)\right]dx
ogniqualvolta il secondo membro della relazione sopra è finito.

Laddove la seconda condizione di regolarità è estesa al secondo ordine di derivazione, è possibile esprimere la disuguaglianza tramite una forma alternativa dell'informazione di Fisher, così che il limite inferiore di Cramér-Rao è dato da:

\ \mbox{var}\left({\hat{\vartheta}}\right)\geq\frac{1}{\mathcal{I}(\vartheta)}=\frac{1}{-\mbox{E}\left[\frac{\partial^{2}}{\partial\vartheta^{2}}\ln f(X;\vartheta)\right]}

In alcuni casi, può risultare più semplice applicare la disuguaglianza nella forma testé espressa.

Si osservi che uno stimatore non corretto potrà avere una varianza o uno scarto quadratico medio inferiore al limite di Cramér-Rao; questo perché la disuguaglianza è riferita esclusivamente a stimatori corretti.

Dimostrazione[modifica | modifica wikitesto]

La dimostrazione della disuguaglianza di Cramér-Rao passa attraverso la verifica di un risultato più generale; per un qualsiasi stimatore (statistica di un campione \ X) \ T=t(X), il cui valore atteso è denotato da \ \psi(\vartheta), e per ogni \ \vartheta:

\ \mbox{var}(t(X))\geq\frac{\left[\psi'(\vartheta)\right]^{2}}{\mathcal{I}(\vartheta)}

La disuguglianza di Cramér-Rao discende direttamente da quest'ultima relazione, come caso particolare.

Sia dunque \ X una variabile casuale, avente funzione di densità \ f(x;\vartheta). \ T=t(X) è una statistica utilizzata come estimatore del parametro \ \vartheta. Sia inoltre \ V il suo score, o derivata logaritmica rispetto a  \vartheta:

\ V=\frac{\partial}{\partial\vartheta}\ln f(X;\vartheta)

Il valore atteso \ \mbox{E}(V) è nullo. Ciò a sua volta implica che \ \mbox{cov}(V,T)=\mbox{E}(VT)-\mbox{E}(V)\mbox{E}(T)=\mbox{E}(VT). Espandendo quest'ultima espressione, si ha:

\ \mbox{cov}(V,T)=\mbox{E}\left(T\frac{\partial}{\partial\vartheta}\ln f(X;\vartheta)\right)

Svolgendo la derivata tramite la regola della catena:

\ \frac{\partial}{\partial x}\ln g(x)=\frac{1}{g(x)}\frac{\partial g}{\partial x}

e conoscendo la definizione di speranza matematica:

\ \mbox{E}\left(T\frac{\partial}{\partial\vartheta}\ln f(X;\vartheta)\right)=\int t(x)\left[\frac{\partial}{\partial\vartheta}f(x;\vartheta)\right]dx=\frac{\partial}{\partial\vartheta}\left[\int t(x)f(x;\vartheta)dx\right]=\psi'(\vartheta)

dal momento che gli operatori di derivazione e integrazione commutano.

Tramite la disuguaglianza di Cauchy-Schwarz si ha inoltre:

\ \sqrt{\mbox{var}(T)\mbox{var}(V)}\geq\mbox{cov}(V,T)=\psi'(\vartheta)

dunque:

\ \mbox{var}(T)\geq\frac{\left[\psi'(\vartheta)\right]^{2}}{\mbox{var}(V)}=\frac{\left[\psi'(\vartheta)\right]^{2}}{\mathcal{I}(\vartheta)}=\left[\frac{\partial}{\partial\vartheta}\mbox{E}(T)\right]^{2}\frac{1}{\mathcal{I}(\vartheta)}

come volevasi dimostrare. Ora, se \ T è uno stimatore corretto per \ \vartheta,  \mbox{E}(T)=\vartheta, e \ \psi'(\vartheta)=1; dunque la relazione sopra diviene:

\ \mbox{var}(T)\geq\frac{1}{\mathcal{I}(\vartheta)}

ossia la disuguaglianza di Cramér-Rao.

Estensione a più parametri[modifica | modifica wikitesto]

Al fine di estendere la disuguaglianza di Cramér-Rao al caso di un vettore di parametri, si definisca il vettore colonna:

\boldsymbol{\theta} = \left[ \vartheta_1, \vartheta_2, \dots, \vartheta_d \right]' \in \mathbb{R}^d

e sia ad esso associata una funzione di densità f(x; \boldsymbol{\theta}) che soddisfi le condizioni di regolarità elemento per elemento.

L'informazione di Fisher \ \mathcal{I}(\boldsymbol{\theta}) è allora una matrice di dimensioni \ d\times d, il cui generico elemento \ (m,k) è definito da:

\ \mathcal{I}_{m, k} =\mbox{E}\left[
 \frac{\partial}{\partial\vartheta_m} \ln f\left(x; \boldsymbol{\theta}\right)
 \frac{\partial}{\partial\vartheta_k} \ln f\left(x; \boldsymbol{\theta}\right)
\right]

La disuguaglianza di Cramér-Rao è dunque formulata come:


\mbox{cov}_{\boldsymbol{\theta}}\left(\boldsymbol{T}(X)\right)
\geq
\frac
 {\partial \boldsymbol{\psi} \left(\boldsymbol{\theta}\right)}
 {\partial \boldsymbol{\theta}^T}
\mathcal{I}\left(\boldsymbol{\theta}\right)^{-1}
\frac
 {\partial \boldsymbol{\psi}\left(\boldsymbol{\theta}\right)'}
 {\partial \boldsymbol{\theta}}

dove:

  • 
\boldsymbol{T}(X) = \begin{bmatrix} T_1(X) & T_2(X) & \cdots & T_d(X) \end{bmatrix}'
  • 
\boldsymbol{\psi}
=
\mathrm{E}\left[\boldsymbol{T}(X)\right]
=
\begin{bmatrix} \psi_1\left(\boldsymbol{\theta}\right) &
 \psi_2\left(\boldsymbol{\theta}\right) &
 \cdots &
 \psi_d\left(\boldsymbol{\theta}\right)
\end{bmatrix}'
  • \frac{\partial \boldsymbol{\psi}\left(\boldsymbol{\theta}\right)}{\partial \boldsymbol{\theta}'}
=
\begin{bmatrix}
 \psi_1 \left(\boldsymbol{\theta}\right) \\
 \psi_2 \left(\boldsymbol{\theta}\right) \\
 \vdots \\
 \psi_d \left(\boldsymbol{\theta}\right)
\end{bmatrix}
\begin{bmatrix}
 \frac{\partial}{\partial \vartheta_1} &
 \frac{\partial}{\partial \vartheta_2} &
 \cdots &
 \frac{\partial}{\partial \vartheta_d}
\end{bmatrix}
=
\begin{bmatrix}
 \frac{\partial \psi_1 \left(\boldsymbol{\theta}\right)}{\partial \vartheta_1} &
 \frac{\partial \psi_1 \left(\boldsymbol{\theta}\right)}{\partial \vartheta_2} &
 \cdots &
 \frac{\partial \psi_1 \left(\boldsymbol{\theta}\right)}{\partial \vartheta_d} \\
 \frac{\partial \psi_2 \left(\boldsymbol{\theta}\right)}{\partial \vartheta_1} &
 \frac{\partial \psi_2 \left(\boldsymbol{\theta}\right)}{\partial \vartheta_2} &
 \cdots &
 \frac{\partial \psi_2 \left(\boldsymbol{\theta}\right)}{\partial \vartheta_d} \\
 \vdots &
 \vdots &
 \ddots &
 \vdots \\
 \frac{\partial \psi_d \left(\boldsymbol{\theta}\right)}{\partial \vartheta_1} &
 \frac{\partial \psi_d \left(\boldsymbol{\theta}\right)}{\partial \vartheta_2} &
 \cdots &
 \frac{\partial \psi_d \left(\boldsymbol{\theta}\right)}{\partial \vartheta_d}
\end{bmatrix}
  • 
\frac{\partial \boldsymbol{\psi}\left(\boldsymbol{\theta}\right)'}{\partial \boldsymbol{\theta}}
=
\begin{bmatrix}
 \frac{\partial}{\partial \vartheta_1} \\
 \frac{\partial}{\partial \vartheta_2} \\
 \vdots \\
 \frac{\partial}{\partial \vartheta_d}
\end{bmatrix}
\begin{bmatrix}
 \psi_1 \left(\boldsymbol{\theta}\right) &
 \psi_2 \left(\boldsymbol{\theta}\right) &
 \cdots &
 \psi_d \left(\boldsymbol{\theta}\right)
\end{bmatrix}
=
\begin{bmatrix}
 \frac{\partial \psi_1 \left(\boldsymbol{\theta}\right)}{\partial \vartheta_1} &
 \frac{\partial \psi_2 \left(\boldsymbol{\theta}\right)}{\partial \vartheta_1} &
 \cdots &
 \frac{\partial \psi_d \left(\boldsymbol{\theta}\right)}{\partial \vartheta_1} \\
 \frac{\partial \psi_1 \left(\boldsymbol{\theta}\right)}{\partial \vartheta_2} &
 \frac{\partial \psi_2 \left(\boldsymbol{\theta}\right)}{\partial \vartheta_2} &
 \cdots &
 \frac{\partial \psi_d \left(\boldsymbol{\theta}\right)}{\partial \vartheta_2} \\
 \vdots &
 \vdots &
 \ddots &
 \vdots \\
 \frac{\partial \psi_1 \left(\boldsymbol{\theta}\right)}{\partial \vartheta_d} &
 \frac{\partial \psi_2 \left(\boldsymbol{\theta}\right)}{\partial \vartheta_d} &
 \cdots &
 \frac{\partial \psi_d \left(\boldsymbol{\theta}\right)}{\partial \vartheta_d}
\end{bmatrix}

e \ \mbox{cov}_{\boldsymbol{\theta}} \left( \boldsymbol{T}(X) \right) è una matrice semidefinita positiva, ossia tale per cui \ x'\mbox{cov}_{\boldsymbol{\theta}}\left(\boldsymbol{T}(X)\right)x\geq 0\ \forall\ x\in\mathbb{R}^{d},\ x\neq\mathbf{0}.

Se \ \boldsymbol{T}(X)=\begin{bmatrix} T_1(X) & T_2(X) & \cdots & T_d(X) \end{bmatrix}' è uno stimatore corretto, e dunque \ \boldsymbol{\psi}(\boldsymbol{\theta})=\boldsymbol{\theta}, la disuguaglianza di Cramér-Rao è:

\ \mbox{cov}_{\boldsymbol{\theta}}(\boldsymbol{T}(X))\geq\mathcal{I}(\boldsymbol{\theta})^{-1}

La disuguaglianza stessa è da intendersi nel senso che la differenza tra il primo e il secondo membro è ancora una matrice semidefinita positiva.

Disuguaglianza di Cramér-Rao ed efficienza[modifica | modifica wikitesto]

La disuguaglianza di Cramé-Rao è strettamente legata al concetto di efficienza di uno stimatore. In particolare, è possibile definire una misura di efficienza per uno stimatore \ T(X) per il parametro (o vettore di parametri) \ \vartheta, come:

\ e(T)=\frac{\frac{1}{\mathcal{I}(\vartheta)}}{\mbox{var}(T)}

ossia la minima varianza possibile per uno stimatore corretto, basata sulla disuguaglianza di Cramér-Rao, rapportata all'effettiva varianza. In base alla disuguaglianza di Cramér-Rao, ovviamente \ e(T)\leq 1.

Illustrazione del risultato[modifica | modifica wikitesto]

Si illustra il significato della disuguaglianza di Cramér-Rao tramite un esempio basato sulla variabile casuale normale multivariata. Sia un vettore aleatorio \ \mathbf{x}\in\mathbb{R}^{d}, tale che:

\ \mathbf{x}\sim N\left(\mu(\boldsymbol{\theta}),\Sigma(\boldsymbol{\theta})\right),\ \mu(\boldsymbol{\theta})\in\mathbb{R}^{d},\ \Sigma(\boldsymbol{\theta})\in\mathbb{R}^{d\times d}

dove \ N(\cdot) denota la distribuzione normale; la funzione di densità multivariata associata è:

\ f_{\mathbf{X}}(\mathbf{x};\boldsymbol{\theta})=\frac{1}{\sqrt{(2\pi)^{d}|\Sigma|}}\exp\left\{-\frac{1}{2}(\mathbf{x}-\mu)'\Sigma^{-1}(\mathbf{x}-\mu)\right\}

La matrice informazione di Fisher ha generico elemento \ (m,k) :

\ \mathcal{I}(\boldsymbol{\theta})_{m,k} = \frac{\partial\mu'}{\partial\vartheta_{m}}\Sigma^{-1}\frac{\partial\mu}{\partial\mu_{k}}+\frac{1}{2}\mbox{tr}\left(\Sigma^{-1}\frac{\partial\Sigma}{\partial\vartheta_{m}}\Sigma^{-1}\frac{\partial\Sigma}{\partial\vartheta_{k}}\right)

dove \ \mbox{tr}(\cdot) denota l'operatore traccia di una matrice.

Si consideri caso di un vettore aleatorio gaussiano come sopra, di dimensione \ n, con media nulla ed elementi indipendenti aventi ciascuno varianza \ \sigma^{2}:

\ x\sim N(\mathbf{0},\sigma^{2}I)

La matrice informazione di Fisher è allora \ 1\times 1:

\ \mathcal{I}(\sigma^{2})=\frac{1}{2}\mbox{tr}\left(\Sigma^{-1}\frac{\partial\Sigma}{\partial\vartheta_{m}}\Sigma^{-1}\frac{\partial\Sigma}{\partial\vartheta_{k}}\right)=\frac{1}{2\sigma^{2}}\mbox{tr}(I)=\frac{n}{2\sigma^{2}}

Dunque il limite inferiore di Cramér-Rao per la varianza di uno stimatore \ T_{\sigma^{2}} per \ \sigma^{2} è dato da:

\ \mbox{var}(T_{\sigma^{2}})\geq\frac{2\sigma^{2}}{n}

Giova osservare che tale limite è pari alla varianza teorica dello stimatore di massima verosimiglianza per il parametro \ \sigma^{2} nelle ipotesi presentate.

Note[modifica | modifica wikitesto]

  1. ^ Wiebe R. Pestman, Mathematical Statistics: An Introduction, Walter de Gruyter, 1998, ISBN 3-11-015357-2, p. 118.

Bibliografia[modifica | modifica wikitesto]

  • D.C. Boes, F.A. Graybill, A.M. Mood (1988), Introduzione alla Statistica, McGraw-Hill Libri Italia, ISBN 88-386-0661-7, un testo di riferimento per i fondamenti della statistica matematica; la disuguaglianza di Cramér-Rao è trattata nei capitoli sui metodi di ricerca degli stimatori.
  • Alexander Craig Aitken e H. Silverstone, "On the Estimation of Statistical Parameters", in Proceedings of the Royal Society of Edinburgh, 1942, vol. 61, pp. 186-194, dove gli autori sviluppano idee di Ronald Fisher descrivendo un caso particolare di quella che sarebbe diventate la Disuguaglianza di Cramèr-Rao

Voci correlate[modifica | modifica wikitesto]

matematica Portale Matematica: accedi alle voci di Wikipedia che trattano di matematica