Variabili strumentali

Da Wikipedia, l'enciclopedia libera.

In statistica, la stima con il metodo delle variabili strumentali è utilizzata nell'analisi di regressione lineare. Un'ipotesi standard del modello classico di regressione lineare è che le variabili esplicative non siano correlate con la componente non spiegata, o disturbo; laddove tale ipotesi viene meno, la regressione con il consueto metodo dei minimi quadrati non consentirà di ottenere stime consistenti (cioè asintoticamente corrette e con varianza asintoticamente nulla). Se tuttavia è disponibile una variabile strumentale, è ancora possibile ottenere stime consistenti.

Il metodo di stima di un modello lineare tramite variabili strumentali è anche noto come metodo dei minimi quadrati a due stadi (o 2SLS, dall'inglese Two-Stages Least Squares).

Definizione[modifica | modifica wikitesto]

Illustrazione del modello generale di regressione con variabili strumentali e la sua terminologia:[1]

Y_{i}= \beta_{0} + \beta_{1}X_{1i} + \beta_{2}X_{2i} + \cdots+ \beta_{k}X_{ki} + \beta_{k+r}W{ri} + Z_{1i}, Z_{2i} + u_{i}

dove:

i varia tra le osservazioni, i = 1, ...., n;
 Y_i è variabile dipendente;
X_{1i}, X_{2i} +\cdots+ X_{ki} sono k regressori endogeni potenzialmente correlati con  u_i ;
W_{1i}, W_{2i} +\cdots+ W_{ri} sono r regressori esogeni inclusi incorrelati con  u_i ;
\beta_0 + \beta_1 x_{1i} + \beta_2 x_{2i}\cdots+ \beta_k x_{ki} è la retta di regressione;
\beta_0, \beta_1 \cdots \beta{k+1} sono coefficienti di regressione ignoti;
Z_{1i}, Z_{2i} \cdots Z_{mi} sono m variabili strumentali;
 u_i è l'errore statistico.

Vengono stimati col Metodo dei minimi quadrati a due stadi.

Validità degli strumenti[modifica | modifica wikitesto]

Un insieme di strumento Z_{1i}, Z_{2i} \cdots Z_{mi} deve soddisfare due condizioni per essere valido:

  • Rilevanza: lo strumento non è correlato con la X. Cor [Z_{i}, X_i] \neq 0
  • Esogeneità: la parte della variazione di X_i, catturata dalla variabile strumentale è esogena. E [Z_{i}, u_i] = 0

Illustrazione del metodo[modifica | modifica wikitesto]

Si consideri il modello di regressione lineare:

\ y_{i}=x_{i}\beta+\varepsilon_{i},\ i=1,\ldots,N

Nel modello classico di regressione si ipotizza che le variabili esplicative \ x_{i} non presentino correlazione con i disturbi \ \varepsilon_i, \ \mbox{E}[x_{i}\varepsilon_{i}]=0. Il metodo dei minimi quadrati ottiene lo stimatore per il parametro \ \beta come soluzione all'equazione:

\ \sum_{i}x_{i}(y_{i}-x_{i}\beta)=0

Ciò conduce allo stimatore (dei minimi quadrati ordinari, in inglese Ordinary Least Squares, o OLS):

\ \hat{\beta}_{\mathrm{OLS}}=\frac{\sum_{i}x_{i}y_{i}}{\sum_{i}x_{i}^{2}}=\frac{\sum_{i}x_{i}(x_{i}\beta+\varepsilon_{i})}{\sum_{i}x_{i}^{2}}=\beta+\frac{\sum_{i}x_{i}\varepsilon_{i}}{\sum_{i}x_{i}^{2}}

Poiché \ x_{i} e \ \varepsilon_i sono incorrelati, passando al limite per \ N\rightarrow\infty il secondo termine nell'espressione sopra converge a zero in probabilità, così che la stima \ \hat{\beta} è consistente.

Quando l'ipotesi standard viene meno, tuttavia, lo stimatore dei minimi quadrati non è più consistente. Può in tal caso essere utile considerare una variabile strumentale \ z_i, \ i=1,\ldots,N, non correlata con il disturbo \ \varepsilon_i (e, idealmente, correlata con la variabile esplicativa \ x_i). Grazie ad essa è possibile impostare uno stimatore tramite il metodo dei momenti, tale da soddisfare la condizione:

\ \sum_{i}z_{i}(y_i-x_{i}\beta)=0

Dalla condizione sopra discende lo stimatore (delle variabili strumentali, in inglese Instrumental Variables, o IV):

\ \hat{\beta}_{\mathrm{IV}} = \frac{\sum_{i}z_{i}y_{i}}{\sum_{i}z_{i}x_{i}}=\frac{\sum_{i}z_{i}(x_{i}\beta+\varepsilon_{i})}{\sum_{i}z_{i}x_{i}}=\beta+\frac{\sum_{i}z_{i}\varepsilon_{i}}{\sum_{i}z_{i}x_{i}}

Poiché \ z_i e \ \varepsilon_i non presentano correlazione, lo stimatore \ \hat{\beta}_{\mathrm{IV}} godrà della proprietà di consistenza. Può essere interessante osservare che tale stimatore costituisce un caso più generale di quello ottenuto con il metodo dei minimi quadrati; tale metodo, in altre parole, può essere pensato come una stima tramite variabili strumentali, in cui le stesse variabili esplicative (\ x_i nella notazione sopra adottata) sono utilizzate come variabili strumentali.

Il caso multivariato[modifica | modifica wikitesto]

La procedura descritta sopra è immediatamente adattabile al caso multivariato. Si consideri una matrice X di N osservazioni di K regressori, e una matrice Z di N osservazioni di P variabili strumentali, tale che:

 y = X\beta+\varepsilon,\quad \mbox{E}[X\varepsilon]\neq 0

dove I denota la matrice identità di dimensione N, e:

\ X=Z\Gamma + u,\quad \mbox{E}[u]=0,\quad \mbox{E}[Z\varepsilon]=0

Si può allora scrivere:

\hat\Gamma = (Z'Z)^{-1}Z'X
\hat X = Z\hat\Gamma = Z(Z'Z)^{-1}Z'X
\hat\beta_{\mathrm{IV}}=(\hat X'\hat X)^{-1}\hat X' y = \beta + (Z'X)^{-1}Z'\varepsilon

Applicazione del metodo[modifica | modifica wikitesto]

La correlazione tra regressori e disturbi in un modello di regressione lineare può insorgere in una serie di circostanze. Alcuni casi notevoli, generalmente menzionati in letteratura, sono:

  • Omissione di variabili rilevanti, se il modello di regressione (multivariata) non include tra i regressori una variabile, che pure avrebbe rilevante potere esplicativo nei confronti della variabile dipendente;
  • Errore nelle variabili esplicative, laddove i dati relativi a uno o più regressori sono affetti da un errore di misura, distinto dal disturbo \ \varepsilon_i;
  • Equazioni simultanee, nei casi in cui il sistema oggetto di analisi mette insieme diversi modelli statistici che operano simultaneamente.

Il metodo delle variabili strumentali è spesso applicato con una procedura di stima con i minimi quadrati a due stadi (in inglese, Two-Stages Least Squares, o 2SLS). Nell'approccio 2SLS, in un primo stadio di stima i regressori (\ x_i nella notazione sopra) sono regrediti sulle variabili strumentali (\ z_i), ottenendo dei valori di previsione di primo stadio \ \hat{x}_i. Nel secondo stadio, la variabile dipendente (\ y_{i}) è regredita sui valori di previsione di primo stadio \ \hat{x}_i, ottenendo le stime \ \hat{\beta}_{\mathrm{IV}}.

Per le sue caratteristiche, il metodo delle variabili strumentali è soggetto a problemi legati alla scelta delle variabili strumentali stesse. Al di là dei requisiti formali per il funzionamento del metodo (assenza di correlazione con i disturbi), queste ultime potranno essere individuate mediante considerazioni strettamente relative al problema oggetto di analisi statistica. Modifiche esogene di una data politica (ad es., cancellazione di un programma di borse di studio), differenze geografiche nell'applicazione di dati standard (ad es., differenze di risultati necessari per il superamento di un dato esame in diversi stati), o mera casualità potranno definire delle opportune variabili strumentali.

Note[modifica | modifica wikitesto]

  1. ^ James Stock, Mark Watson, Introduzione all'econometria, Milano, Pearson Education, 2005, p. 337, ISBN 978-88-7192-267-6.

Bibliografia[modifica | modifica wikitesto]

  • Greene, W.H. (2000), Econometric Analysis, Prentice-Hall, ISBN 0-13-013297-7, analizza nel dettaglio il modello classico di regressione lineare nel caso multivariato, con particolare riferimento alle sue applicazioni nell'ambito dell'econometria, disciplina per cui rappresenta il testo di livello universitario/master di riferimento (in inglese); il metodo delle variabili strumentali è trattato nel Capitolo 9.
  • Wooldridge, J.M. (2002), Econometric Analysis of Cross Section and Panel Data, MIT Press, ISBN 0-262-23219-7, tratta in maniera più approfondita la stima tramite variabili strumentali, nel caso di modelli ad una singola equazione (capitolo 5) e di modelli di equazioni simultanee (capitolo 8); si tratta di un testo di riferimento per studi a livello di dottorato (in inglese).

Voci correlate[modifica | modifica wikitesto]


economia Portale Economia: accedi alle voci di Wikipedia che trattano di economia