2SLS mais Probit deuxième étage

15

J'essaie d'utiliser l'analyse des variables instrumentales pour inférer la causalité avec des données d'observation.

J'ai rencontré une régression des moindres carrés en deux étapes (2SLS) qui est susceptible de résoudre le problème d'endogénéité dans mes recherches. Cependant, je voudrais que la première étape soit OLS et la deuxième étape soit probit au sein du 2SLS. Sur la base de ma lecture et de ma recherche, j'ai vu des chercheurs utiliser soit 2SLS, soit probit de premier niveau et OLS de deuxième stade, mais pas l'inverse, ce que j'essaie d'atteindre.

J'utilise actuellement la commande Stata et ivreg dans Stata est pour un 2SLS droit.

Véronique
la source

Réponses:

12

Votre cas est moins problématique que l'inverse. Les opérateurs d'attentes et de projections linéaires passent par une première étape linéaire (par exemple OLS) mais pas par des non-linéaires comme probit ou logit. Par conséquent, ce n'est pas un problème si vous régressez d'abord votre variable endogène continue sur votre ou vos instruments , , puis utilisez les valeurs ajustées dans une deuxième étape probit pour estimer Z X i = a + Z ' i tc + η i Pr ( Y i = 1 | X i ) = Pr ( β X i + ε i > 0 )XZ

Xje=une+Zjeπ+ηje
Pr(Ouije=1|X^je)=Pr(βX^je+ϵje>0)

Les erreurs standard ne seront pas correctes car n'est pas une variable aléatoire mais une quantité estimée. Vous pouvez corriger cela en amorçant le premier et le deuxième étage ensemble. Dans Stata, ce serait quelque chose commeX^je

// use a toy data set as example
webuse nlswork

// set up the program including 1st and 2nd stage
program my2sls
    reg grade age race tenure
    predict grade_hat, xb

    probit union grade_hat age race
    drop grade_hat
end

// obtain bootstrapped standard errors
bootstrap, reps(100): my2sls

Dans cet exemple, nous voulons estimer l'effet des années de scolarité sur la probabilité d'être membre d'un syndicat. Étant donné que les années d'éducation sont susceptibles d'être endogènes, nous l'instruisons avec des années d'ancienneté dans la première étape. Bien sûr, cela n'a aucun sens du point de vue de l'interprétation, mais cela illustre le code.

Assurez-vous simplement d'utiliser les mêmes variables de contrôle exogènes à la fois au premier et au deuxième étage. Dans l'exemple ci-dessus, ce sont age, racealors que l'instrument (non sensible) tenuren'est là que dans la première étape.

Andy
la source
Merci beaucoup, cela a résolu le problème auquel j'étais confronté. Merci encore.
Veronica
1
En fait, la recherche suggère d'utiliser une approche de fonction de contrôle pour les modèles non linéaires comme un logit, qui consisterait à utiliser les résidus de la première étape avec la variable endogène, plutôt que les valeurs prédites. Bien qu'il semble y avoir souvent des progrès, voir: stat.wharton.upenn.edu/~zijguo/…
robin.datadrivers
1
Désolé, je n'ai pas fourni de citation pour comparer les deux approches pour les modèles linéaires et non linéaires. ncbi.nlm.nih.gov/pmc/articles/PMC2494557
robin.datadrivers
-1 J'ai dû déprécier cette réponse, car il ne semble généralement pas possible de transférer l'idée de l'estimateur 2SLS aux modèles non linéaires dans la première et / ou la deuxième étape. Cela peut être vrai pour le cas du 1er degré LS et du 2e degré probit (@Andy avez-vous une référence pour le supporter?), Mais au moins une mise en garde s'impose car j'ai vu beaucoup de gens faire l'idée 2SLS de toutes sortes de cas de modèles non linéaires au premier et au deuxième stade et c'est une pratique problématique.
Momo