Utente:Ziodave/Sandbox

In statistica, il modello probit è una specificazione di un modello di regressione binaria che ha riscosso e riscuote una notevole popolarità. Detta $Y$ una variabile dipendente binaria (ossia che assume soltanto i valori 0 e 1), sia $X$ una matrice di regressori. Il modello probit ipotizza che:

\ Pr\left(Y_{i}=1|X=x_{i}\right)=\Phi \left(x_{i}'\beta \right)={\frac {1}{\sqrt {2\pi }}}\int _{-\infty }^{x_{i}'\beta }e^{-z^{2}}dz

dove $x_{i}$ denota una riga di $X$ e $\Phi$ è la funzione di ripartizione di una variabile casuale normale standard. Il vettore di parametri $\ \beta$ è di norma stimato con il metodo della massima verosimiglianza. È del tutto analogo al modello logit, dal quale differisce essenzialmente per la scelta della funzione $\Phi$ ; tale scelta è spesso dettata da considerazioni di trattabilità algebrica del modello, piuttosto che da motivi teorici.

Introduzione

Si supponga di avere una variabile dipendente binaria Y, ad esempio la decisione di comprare una nuova automobile da parte di un campione di n individui. La decisione può essere influenzata da vari fattori (prezzo dell'auto, costo della benzina, chilometri percorsi in un anno, età dell'auto precedente), raccolti nella matrice X. La variabile Y assume un valore di 1 se l'individuo ha comprato l'auto e 0 se non l'ha comprata.

Il modello probit si basa sull'assunzione che dietro alla decisione di comprare un'auto nuova ci sia una variabile latente (non osservabile), Y* che in questo caso misura il beneficio netto derivante dall'acquisto. Il modello latente sarà:

{\begin{aligned}Y^{*}=\beta X+\varepsilon \\\varepsilon \sim N(0,1)\end{aligned}}

Dove ε rappresenta il vettore degli errori. Assunzione fondamentale del modello probit è che gli errori siano distribuiti secondo una distribuzione normale standardizzata.

La relazione fra variabile osservata Y e variabile latente Y* è la seguente

{\begin{aligned}Y=1\quad {\text{se}}\quad Y^{*}\geq 0\\Y=0\quad {\text{se}}\quad Y^{*}<0\\\end{aligned}}

Ciò implica che un individuo comprerà un'auto nuova solo se i benefici supereranno i costi. Basandosi sulla relazione fra variabile latente e variabile osservata è possibile ricavare la formula della probabilità che un individuo compri un auto nuova date le sue caratteristiche e quelle dell'auto:

{\begin{aligned}\Pr(Y=1\mid X)&=\Pr(Y^{\ast }\geq 0)=\Pr(X'\beta +\varepsilon \geq 0)\\&=\Pr(\varepsilon \geq -X'\beta )\\&=\Pr(\varepsilon \leq X'\beta )\quad {\text{(dalla simmetria della distribuzione normale)}}\\&=\Phi (X'\beta )\end{aligned}}

Per stimare i coefficienti β si ricorre al metodo della massima verosimiglianza. La funzione di verosimiglianza è:

{\begin{aligned}{\mathcal {L}}\left(\beta |X\right)=\prod _{i=1}^{n}\ (\Phi (X'\beta ))^{y_{i}}\ (1-\Phi (X'\beta ))^{1-y_{i}}\end{aligned}}

Vantaggi rispetto al metodo dei minimi quadrati

Nulla impedisce di ottenere uno stimatore dei coefficienti tramite il metodo dei minimi quadrati, facendo a meno del modello latente e utilizzando direttamente Y come variabile dipendente. Tuttavia questo può portare a dei problemi nell'interpretazione dei coefficienti: infatti i valori previsti di Y appartengono potenzialmente all'intero insieme dei numeri reali.

Questo significa che la previsione della probabilità che un certo evento si verifichi potrebbe risultare negativa o maggiore di uno.

Utente:Ziodave/Sandbox

Introduzione

Vantaggi rispetto al metodo dei minimi quadrati

Menu di navigazione

Ricerca