J'ai lu que l'estimateur 2SLS est toujours cohérent même avec la variable endogène binaire ( http://www.stata.com/statalist/archive/2004-07/msg00699.html ). Dans un premier temps, un modèle de traitement probit sera exécuté au lieu d'un modèle linéaire.
Existe-t-il une preuve formelle pour montrer que 2SLS est toujours cohérent même lorsque la 1ère étape est un modèle probit ou logit?
Et si le résultat est également binaire? Je comprends que si nous avons un résultat binaire et une variable endogène binaire (les premier et deuxième stades sont tous deux des modèles probit / logit binaires), imiter la méthode 2SLS produira une estimation incohérente. Y a-t-il une preuve formelle pour cela? Le livre économétrique de Wooldridge a une certaine discussion mais je pense qu'il n'y a aucune preuve rigoureuse pour montrer l'incohérence.
data sim;
do i=1 to 500000;
iv=rand("normal",0,1);
x2=rand("normal",0,1);
x3=rand("normal",0,1);
lp=0.5+0.8*iv+0.5*x2-0.2*x3;
T=rand("bernoulli",exp(lp)/(1+exp(lp)));
Y=-0.8+1.2*T-1.3*x2-0.8*x3+rand("normal",0,1);
output;
end;
run;
****1st stage: logit model ****;
****get predicted values ****;
proc logistic data=sim descending;
model T=IV;
output out=pred1 pred=p;
run;
****2nd stage: ols model with predicted values****;
proc reg data=pred1;
model y=p;
run;
le coefficient de p = 1.19984
. Je n'exécute qu'une seule simulation mais avec un échantillon de grande taille.
Réponses:
Il y a eu une question similaire concernant une première étape probit et une deuxième étape OLS. Dans la réponse, j'ai fourni un lien vers des notes qui contiennent une preuve formelle de l'incohérence de cette régression qui est officiellement connue sous le nom de "régression interdite", comme l'a appelé Jerry Hausman. La principale raison de l'incohérence de l'approche probit premier étage / OLS deuxième étage est que ni l'opérateur d'anticipation ni l'opérateur de projection linéaire ne passent par un premier étage non linéaire. Par conséquent, les valeurs ajustées d'un probit de première étape ne sont pas corrélées avec le terme d'erreur de deuxième étape dans le cadre d'hypothèses très restrictives qui ne tiennent pratiquement jamais en pratique. Sachez cependant que la preuve formelle de l'incohérence de la régression interdite est assez élaborée, si je me souviens bien.
Si vous avez un modèle où est un résultat continu et est une variable endogène binaire, vous pouvez exécuter la première étape via OLS et utilisez les valeurs ajustées au lieu de dans la deuxième étape. Il s'agit du modèle de probabilité linéaire auquel vous faisiez référence. Étant donné qu'il n'y a pas de problème pour les attentes ou les projections linéaires pour cette première étape linéaire, vos estimations 2SLS seront cohérentes bien que moins efficaces qu'elles ne le seraient si nous tenions compte de la nature non linéaire de .
La cohérence de cette approche découle du fait que même si un modèle non linéaire peut correspondre plus étroitement à la fonction des attentes conditionnelles pour des variables dépendantes limitées, cela n'a pas beaucoup d'importance si vous êtes intéressé par l'effet marginal. Dans le modèle de probabilité linéaire, les coefficients eux-mêmes sont des effets marginaux évalués à la moyenne, donc si l'effet marginal à la moyenne est ce que vous recherchez (et généralement les gens le sont), alors c'est ce que vous voulez étant donné que le modèle linéaire donne le meilleur linéaire approximations des fonctions d'espérance conditionnelle non linéaires.Yi
Il en va de même si est également binaire.
Pour une discussion plus détaillée à ce sujet, jetez un œil aux excellentes notes de cours de Kit Baum sur ce sujet. À partir de la diapositive 7, il discute de l'utilisation du modèle de probabilité linéaire dans le contexte 2SLS.
Enfin, si vous voulez vraiment utiliser probit parce que vous voulez des estimations plus efficaces, il y a une autre manière qui est également mentionnée dans Wooldridge (2010) "Analyse économétrique des données transversales et de panel". La réponse liée ci-dessus l'inclut, je la répète ici pour être complète. Comme exemple appliqué, voir Adams et al. (2009) qui utilisent une procédure en trois étapes qui se déroule comme suit:
Cette procédure ne tombe pas pour le problème de régression interdit mais fournit potentiellement des estimations plus efficaces de votre paramètre d'intérêt.
la source