Ce qui vous a été proposé est parfois appelé régression interdite et en général, vous n'évaluerez pas systématiquement la relation d'intérêt. Les régressions interdites ne produisent des estimations cohérentes que dans le cadre d'hypothèses très restrictives qui sont rarement valables dans la pratique (voir par exemple Wooldridge (2010) «Analyse économétrique des données transversales et des données de panel», p. 265-268).
Le problème est que ni l'opérateur des attentes conditionnelles ni la projection linéaire ne portent sur les fonctions non linéaires. Pour cette raison, seule une régression OLS dans la première étape est garantie pour produire des valeurs ajustées qui ne sont pas corrélées avec les résidus. Une preuve en est donnée par Greene (2008) "Econometric Analysis" ou, si vous voulez une preuve plus détaillée (mais aussi plus technique), vous pouvez consulter les notes de Jean-Louis Arcand p. 47 à 52.
Pour la même raison que dans la régression interdite, cette procédure en deux étapes apparemment évidente consistant à imiter 2SLS avec probit ne produira pas d'estimations cohérentes. C'est encore parce que les attentes et les projections linéaires ne se répercutent pas sur les fonctions non linéaires. Wooldridge (2010) dans la section 15.7.3 à la page 594 fournit une explication détaillée à ce sujet. Il explique également la procédure appropriée d'estimation des modèles probit avec une variable endogène binaire. L'approche correcte consiste à utiliser le maximum de vraisemblance, mais le faire à la main n'est pas exactement trivial. Par conséquent, il est préférable que vous ayez accès à un logiciel statistique qui dispose d'un package prêt à l'emploi pour cela. Par exemple, la commande Stata serait ivprobit
(voir le manuel Stata pour cette commande qui explique également l'approche du maximum de vraisemblance).
Si vous avez besoin de références pour la théorie derrière probit avec des variables instrumentales, voir par exemple:
- Newey, W. (1987) "Estimation efficace de modèles à variable dépendante limitée avec des variables explicatives endogènes", Journal of Econometrics, Vol. 36, p. 231-250
- Rivers, D. et Vuong, QH (1988) "Estimateurs d'information limitée et tests d'exogénéité pour les modèles probit simultanés", Journal of Econometrics, Vol. 39, pp. 347-366
Enfin, la combinaison de différentes méthodes d'estimation aux premier et deuxième stades est difficile à moins qu'il n'existe une base théorique qui justifie leur utilisation. Cela ne veut pas dire que ce n'est pas faisable cependant. Par exemple, Adams et al. (2009) utilisent une procédure en trois étapes où ils ont une «première étape» probit et une deuxième étape OLS sans tomber pour le problème de régression interdit. Leur approche générale est la suivante:
- utiliser probit pour régresser la variable endogène sur le (s) instrument (s) et les variables exogènes
- utiliser les valeurs prédites de l'étape précédente dans une première étape OLS avec les variables exogènes (mais sans les variables instrumentales)
- faire la deuxième étape comme d'habitude
Une procédure similaire a été utilisée par un utilisateur du Statalist qui voulait utiliser un premier étage Tobit et un deuxième étage Poisson (voir ici ). Le même correctif devrait être possible pour votre problème d'estimation.
Cela ne semble pas être le cas. La discussion d'Arcand ne porte pas sur la forme fonctionnelle; il s'agit plutôt d'inclure différents ensembles de covariables dans les modèles du premier stade par rapport aux modèles du deuxième stade. "En d'autres termes, la procédure 2SLS correcte implique d'inclure toutes les covariables exogènes qui apparaissent dans l'équation structurelle sous la forme réduite de la première étape. La régression interdite implique de les supprimer en partie ou en totalité."
Pour revenir à la question d'origine, je recommanderais d'utiliser un OLS pour la première étape et le probit pour la seconde. Bien que cela puisse être techniquement biaisé, il est probable (en supposant que vous avez un bon instrument) qu'il soit moins biaisé que l'approche non IV.
la source