Sufficienza (statistica)

Da Wikipedia, l'enciclopedia libera.
Vai alla navigazione Vai alla ricerca

In statistica, la sufficienza di un'analisi statistica (intesa come funzione di un campione di osservazioni) definisce formalmente la capacità di tale funzione di rappresentare in maniera sintetica l'informazione contenuta nel campione. Una funzione che presenti tale caratteristica è definita, a partire dal lavoro di Ronald Fisher, una statistica sufficiente.

Definizione formale[modifica | modifica wikitesto]

Una definizione formale del concetto di sufficienza è la seguente:

Data una variabile casuale , di parametro incognito , e una statistica , è sufficiente per se la distribuzione di probabilità condizionata della data non dipende da .

La definizione sopra rappresenta una formalizzazione dell'idea che una statistica sufficiente sintetizzi tutta l'informazione sulla popolazione contenuta in un campione - variabile casuale . Nella prassi risulta ad ogni modo più agevole lavorare con il seguente criterio di fattorizzazione, originariamente proposto dallo stesso Fisher:

Sia la densità di probabilità della variabile casuale ; è una statistica sufficiente per se e solo se esistono due funzioni , tali che:

Un modo per interpretare l'espressione sopra è immaginare di far variare in maniera tale che il valore della statistica sia costante; che effetto avrebbe questo sull'inferenza circa il valore del parametro ? Se il criterio di fattorizzazione è soddisfatto, nessuno, dal momento che la dipendenza della funzione di verosimiglianza da risulta invariato.

Esempi[modifica | modifica wikitesto]

  • Se sono variabili casuali bernoulliane indipendenti caratterizzate dal parametro , la variabile casuale somma:
è una statistica sufficiente per .
Ciò può vedersi considerando la distribuzione di probabilità congiunta:
Poiché le osservazioni sono indipendenti, quanto sopra può scriversi come:
Raccogliendo le potenze di e si ha:
che soddisfa il criterio di fattorizzazione, dove è semplicemente la funzione costante 1. Si osservi che il parametro oggetto di stima (qui ) interagisce con solo tramite .
  • Se sono indipendenti e uniformemente distribuite sull'intervallo , la funzione:
è una statistica sufficiente per .
Ciò può vedersi considerando la distribuzione di probabilità congiunta:
Poiché le osservazioni sono indipendenti, quanto sopra può scriversi come:
dove è la Funzione gradino di Heaviside. Ciò si può scrivere come:
così che il criterio di fattorizzazione è ancora soddisfatto; anche in questo caso .

Teorema di Rao-Blackwell[modifica | modifica wikitesto]

Poiché la distribuzione condizionata di data non dipende da , ciò vale anche per il valore atteso condizionato di data , dove è una funzione che soddisfa condizioni di regolarità che assicurano l'esistenza del valore atteso. Conseguentemente, tale valore atteso condizionato è esso stesso una statistica, e può essere utilizzato ai fini della stima. Se è un qualsiasi tipo di stimatore per , tipicamente il valore atteso condizionato è uno stimatore migliore. Un modo per rendere questa affermazione più precisa è dato dal teorema di Rao-Blackwell. È spesso possibile costruire uno stimatore di prima approssimazione , e quindi computarne il valore atteso condizionato, ottenendo uno stimatore che è, sotto diversi punti di vista, ottimale.

Voci correlate[modifica | modifica wikitesto]

Altri progetti[modifica | modifica wikitesto]

  Portale Matematica: accedi alle voci di Wikipedia che trattano di matematica