Test F

Da Wikipedia, l'enciclopedia libera.

In statistica il test F per il confronto di due varianze è un test di ipotesi basato sulla distribuzione F di Fisher-Snedecor e volto a verificare l'ipotesi che due popolazioni che seguono entrambe distribuzioni normali abbiano la stessa varianza.

Procedimento[modifica | modifica wikitesto]

Se le popolazioni X e Y seguono rispettivamente le distribuzioni normali \mathcal{N}(\mu_X,\sigma_X^2) e \mathcal{N}(\mu_Y,\sigma_Y^2), allora

  • i campioni X_1,X_2,\ldots,X_n e Y_1,Y_2,\ldots,Y_m si suppongono indipendenti, i primi isonomi a X e i secondi isonomi a Y;
  • gli stimatori delle varianze osservate S_X^2 e S_Y^2 sono variabili aleatorie indipendenti;
  • le variabili aleatorie \tfrac{n-1}{\sigma_X^2}S_X^2 e \tfrac{m-1}{\sigma_Y^2}S_Y^2 seguono rispettivamente le distribuzioni chi quadro \chi^2(n-1) e \chi^2(m-1);
  • il rapporto F=\tfrac{\sigma_Y^2}{\sigma_X^2}\frac{S_X^2}{S_Y^2} segue la distribuzione di Fisher-Snedecor \mathcal{F}(n-1,m-1).

Variabile di decisione[modifica | modifica wikitesto]

Sotto l'ipotesi H_0=(\sigma_X^2=\sigma_Y^2), ovvero se le due popolazioni hanno la stessa varianza, allora la variabile aleatoria

F=\frac{S_X^2}{S_Y^2}

segue la distribuzione di Fisher-Snedecor

\mathcal{F}(n-1,m-1)

di parametri n-1 e m-1, dove n e m sono le numerosità dei due campioni.

La scelta del numeratore non influenza il test: sotto l'ipotesi nulla la variabile aleatoria 1/F segue la distribuzione \mathcal{F}(m-1,n-1).

Il test[modifica | modifica wikitesto]

Come regione di accettazione, al livello di significatività α, viene preso l'intervallo compreso tra i quantili di ordine \frac{\alpha}{2} e 1-\frac{\alpha}{2}, mentre la regione di rifiuto è quella esclusa:

\mathcal{A}=]f_{\frac{\alpha}{2}},f_{1-\frac{\alpha}{2}}[;
\qquad\mathcal{R}=]0,f_{\frac{\alpha}{2}}[\ \cup\ ]f_{1-\frac{\alpha}{2}},\infty[

Un valore appartenente all'intervallo ]0,f_{\frac{\alpha}{2}}[ suggerisce che la varianza di X sia minore della varianza di Y, mentre un valore appartenente all'intervallo ]f_{1-\frac{\alpha}{2}},\infty[ suggerisce l'inverso.

Econometria[modifica | modifica wikitesto]

In molti casi la statistica F può essere calcolata con un processo più diretto:

F=\frac{\left(\frac{\mbox{SSR}_1 - \mbox{SSR}_2 }{p_2 - p_1}\right)}{\left(\frac{\mbox{SSR}_2}{n - p_2}\right)}[1]

dove SSRi è la somma dei quadrati residui (dall'inglese Sum of Square Residuals) del modello i.

In econometria vale anche la seguente formula di moltiplicazioni tra matrici:

F = \frac{(R \hat{\beta} - r )(\hat{R Var(\widehat{\beta}) R'})^{-1} (R\hat{\beta} - r)}{ q}

dove:

  • R è la matrice dei vincoli;
  • r è il parametro d'eguagliaza;
  • (\hat{R Var(\widehat{\beta}) R'})^{-1} è l'inversa della matrice con le covarianze;
  • q è il numero dei vincoli di H_0.

Solitamente gli strumenti sono rilevanti se F ≥ 10

Una tavola dei valori critici del test F può essere trovata qui.

Applicazione alla comparazione di diverse statistiche \chi^2[modifica | modifica wikitesto]

In analisi dei dati il test F viene comunemente usato per confrontare i risultati ottenuti con due diversi metodi e valutati con l'estimatore \chi^2.[2] Se si hanno due variabili \chi^2_1 e \chi^2_2 che seguono la distribuzione di \chi^2 a \nu_1 e \nu_2 gradi di libertà rispettivamente, si può costruire la variabile f:

f = \frac{\chi^2_1 / \nu_1}{\chi^2_2 / \nu_2}

che sarà distribuita secondo la Distribuzione F:

p(f; \nu_1, \nu_2) = \frac{\Gamma[(\nu_1+\nu_2)/2]}{\Gamma[\nu_1/2]\Gamma[\nu_2/2]} \left(\frac{\nu_1}{\nu_2}\right)^{\nu_1 /2} 
\frac{f^{1/2 (\nu_1 -2)}}{(1+f \nu_1 / \nu_2)^{1/2 (\nu_1+\nu_2)}}
\quad.

Per capire se \chi^2_1 e \chi^2_2 sono consistenti si usa quindi l'integrale della distribuzione di probabilità per f:

P_f({f^0;\nu_1, \nu_2}) = \int_{f^0}^{\infty} p(f, \nu_1, \nu_2) df

dove  f^0 è il particolare valore di f ottenuto.

Il valore di P_f dice la probabilità di trovare un valore di f pari a f^0 o più alto da dati casuali se \chi^2_1 e \chi^2_2 sono in accordo.

Tipicamente il test F usato per i \chi^2 confronta due fit applicati agli stessi dati per capire se uno è migliore dell'altro. Se il valore di P_f è minore del livello di confidenza scelto (ad es. 5%), si ha una significativa differenza nella bontà dei due fit.

Note[modifica | modifica wikitesto]

  1. ^ GraphPad Software Inc, How the F test works to compare models, GraphPad Software Inc, 2007/10/11.
  2. ^ Bevington, P.R. Robinson, D. K. - Data reduction and error analysis for physical sciences , Mc Graw Hill