Eteroschedasticità

Da Wikipedia, l'enciclopedia libera.

In statistica si parla di eteroschedasticità allorché la varianza di una variabile casuale (in particolare, del termine di errore di un modello statistico) varia tra le diverse osservazioni campionarie. Il problema dell'eteroschedasticità è particolarmente rilevante nell'ambito dell'analisi di regressione, in quanto fa venir meno alcune delle ipotesi classiche del modello di regressione lineare.

Nel 2003 l'econometrista Robert Engle ha vinto il Premio Nobel per l'economia per i suoi studi sull'analisi di regressione in presenza di eteroschedasticità, alla base della sua formulazione dei modelli della classe ARCH (dall'inglese Autoregressive Conditional Heteroschedasticity, eteroschedasticità condizionale autoregressiva).

Regressioni e termini d'errore[modifica | modifica sorgente]

In generale il problema dell'eteroschedasticità influisce sui termini d'errore di un qualsiasi modello quantitativo. I residui in questi modelli (regressivi o autoregressivi) sono detti omoschedastici quando sono statisticamente indipendenti da tutte le variabili esplicative, quando invece mostrano una propensione a co-variare con anche soltanto una di esse vengono definiti eteroschedastici.

Problemi di stima e di interpretazione[modifica | modifica sorgente]

L'eteroschedasticità comporta una serie di complicazioni nella stima e nell'interpretazione di un modello quantitativo. Per quanto riguarda la stima essa implica l'inefficienza dei parametri della regressione calcolati con il metodo minimi quadrati ordinari (OLS), e di conseguenza la necessità di ri-stimare questi parametri con tecniche più precise, per esempi i minimi quadrati generalizzati (GLS). Dal punto di vista dell'interpretazione l'eteroschedasticità può suggerire errori nella fase di specificazione del modello. Prendiamo per esempio un modello a una sola variabile esplicativa che voglia descrivere l'andamento dell'Inflazione Y al variare del costo delle automobili X. Esso andrebbe formalizzato così:

Y_i=a+bX_i+ e_i

Dove e rappresenta il termine d'errore per ogni livello delle variabili. Se in seguito a un test di eteroschedasticità (per esempio Test di White) viene evidenziata una correlazione tra gli errori e la variabile X allora è molto probabile che il parametro b non solo sia inefficiente ma anche distorto, in quanto recante il peso sulla variabile dipendente di una o più eventuali variabili esplicative omesse. Concettualmente si può affermare che la variabile X e la costante a rappresentino il modello quantitativo, ovvero quanto esso riesce a spiegare della realtà osservata. Il termine d'errore e rappresenta invece la distanza tra il modello e la realtà, la differenza fra le stime ottenute e le osservazioni realmente effettuate. Va da sé che un forte legame fra variabili e termini d'errore evidenzia quanto in quest'ultimo possa celarsi una componente rilevante del fenomeno osservato, il quale sarebbe meglio descritto con una specificazione diversa del modello quantitativo. Nell'esempio riportato potremmo dover specificare che l'inflazione non aumenta solo a causa del prezzo delle automobili X ma anche a causa del prezzo al barile del greggio Z, allora:

Y_i=a+bX_i+cZ_i+e_i

E di qui procedere a nuovi test di specificazione e significatività per saggiare la bontà delle nuove stime dei parametri e dei residui.

Inefficienza asintotica dei minimi quadrati ordinari[modifica | modifica sorgente]

Uno stimatore ricavato con il metodo dei minimi quadrati ordinari (Ordinary Least Squares o OLS in inglese) mantiene le proprietà di correttezza, consistenza e distribuzione normale asintotica anche in caso di eteroschedasticità degli errori. Tuttavia non è più asintoticamente efficiente, cioè la sua varianza non è più la minima possibile[1] nemmeno utilizzando un ipotetico campione con un numero praticamente infinito di osservazioni.

Per provare l'inefficienza, basta mostrare che, in caso di eteroschedasticità, la effettiva varianza asintotica dello stimatore non corrisponde alla varianza minima possibile. Si consideri il seguente modello di regressione lineare:

y_i=\beta X_i + e_i

Il metodo dei minimi quadrati ordinari assume la omoschedasticità degli errori. Supponendo che anche le altre ipotesi dei minimi quadrati ordinari siano valide, la matrice varianza-covarianza degli errori sarà

E[e e'] = E \left[ \begin{bmatrix} 
e_1 \\
e_2 \\
\vdots \\
e_n  \end{bmatrix} 
\begin{bmatrix} 
e_1 & e_2 & \cdots & e_n \end{bmatrix} \right] =  \begin{bmatrix}
\sigma^2 & 0 & \cdots & 0 \\
0 & \sigma^2 & \cdots & 0 \\
  &          & \vdots   &   \\  
0  &   0       & 0   & \sigma^2  \\   
\end{bmatrix}

E lo stimatore OLS sarà

\hat{\beta}_{OLS} = \beta + (X'X)^{-1} X' e =(X' X)^{-1} X' y

con distribuzione asintotica

\hat{\beta}_{OLS} \thicksim\!\!\!\!\!^{{}^{A}} N(\beta, \sigma^2 (X'X)^{-1} )

La cui varianza asintotica è la minima possibile.


Si supponga che gli errori siano in realtà eteroschedastici, ossia che abbiano forma:

E[e e']
=  \sigma^2 V = \sigma^2 \begin{bmatrix}
v_{1}^2 & 0 & \cdots & 0 \\
0 & v_{2}^2 & \cdots & 0 \\
  &          & \vdots   &   \\  
0  &   0       & 0   & v_{n}^2  \\   
\end{bmatrix}

In questo caso utilizzando il metodo dei minimi quadrati ordinari la vera varianza asintotica dello stimatore sarebbe

Var[\hat{\beta}_{OLS}]  = E \left[ (\hat{\beta}_{OLS} - \beta) (\hat{\beta}_{OLS} - \beta)' \right] = (X'X)^{-1} X' E[e e'] X (X'X)^{-1}

e dato che gli errori sono eteroschedastici, si otterrà

Var[\hat{\beta}_{OLS}] = \sigma^2 (X'X)^{-1} X' V X (X'X)^{-1} \ne \sigma^2 (X'X)^{-1}

Questa nuova varianza è diversa da quella (la minima possibile) ottenuta quando gli errori sono effettivamente omoschedastici. Quindi lo stimatore non è più asintoticamente efficiente nel caso in cui gli errori sono eteroschedastici ma vengano erroneamente considerati come omoschedastici.

Una interpretazione del risultato è che la matrice V funga da peso per la matrice dei regressori X. Si consideri per semplicità un modello con un unico regressore e l'intercetta: la parte centrale della varianza dello stimatore sarà

X' V X = \begin{bmatrix} 
1 & x_1 \\
\vdots & \vdots \\
1 & x_n \\
\end{bmatrix}' V \begin{bmatrix} 
1 & x_1 \\
\vdots & \vdots \\
1 & x_n \\
\end{bmatrix} = \begin{bmatrix} 
\sum_{i} V^{2}_{i} & \sum_{i} x_i V^{2}_{i}  \\
\sum_{i} x_i V^{2}_{i} & \sum_{i} x^2_i V^{2}_{i} \\

\end{bmatrix}

Da cui si deduce che le osservazioni x_i a cui corrisponde una varianza dell'errore più grande hanno un maggior peso nel calcolo della varianza dello stimatore. Al contrario, il metodo dei minimi quadrati ordinari assegna un peso pari a 1 a tutte le osservazioni. Un ragionamento simile può essere applicato ad un modello con più di un regressore.

Illustrazioni[modifica | modifica sorgente]

Il problema dell'eteroschedasticità può insorgere sotto una grande varietà di ipotesi, al punto che nei libri di testo più comunemente utilizzati di solito il trattamento del problema è condotto tramite una serie di esempi.

  • Si consideri l'ipotesi in cui le unità statistiche del campione siano imprese di diversa dimensione, di cui si misura il profitto; in generale non vi sono ragioni per aspettarsi che la varianza del profitto sia costante da osservazione a osservazione (al contrario, verosimilmente le imprese di dimensioni maggiori avranno profitti più elevati, la cui variabilità sarà in valore assoluto maggiore rispetto a quella dei profitti delle imprese di minori dimensioni);
  • L'eteroschedasticità è inoltre una nota proprietà delle serie storiche dei rendimenti dei titoli azionari: periodi di elevata volatilità sono seguiti da periodi di volatilità relativamente modesta (raggruppamenti di volatilità).

Note[modifica | modifica sorgente]

  1. ^ Più precisamente, gli stimatori ottenuti con il metodo dei minimi quadrati ordinari sono stimatori di massima verosimiglianza, e in quanto tali la loro varianza asintotica raggiunge il limite inferiore di Cramér-Rao.

Bibliografia[modifica | modifica sorgente]

  • Greene, W.H. (1993), Econometric Analysis, Prentice-Hall, ISBN 0-13-013297-7, un testo di carattere generale, considerato lo standard per un corso universitario di econometria (in inglese);
  • Hamilton, J.D. (1994), Time Series Analysis, Princeton University Press ISBN 0-691-04289-6, il testo di riferimento per l'analisi delle serie storiche; contiene un'esposizione introduttiva dei modelli ARCH (in inglese).

Voci correlate[modifica | modifica sorgente]