Votre cas est moins problématique que l'inverse. Les opérateurs d'attentes et de projections linéaires passent par une première étape linéaire (par exemple OLS) mais pas par des non-linéaires comme probit ou logit. Par conséquent, ce n'est pas un problème si vous régressez d'abord votre variable endogène continue sur votre ou vos instruments ,
, puis utilisez les valeurs ajustées dans une deuxième étape probit pour estimer
Z X i = a + Z ' i tc + η i Pr ( Y i = 1 | X i ) = Pr ( β X i + ε i > 0 )XZ
Xje= a + Z′jeπ+ ηje
Pr ( Yje= 1 | Xˆje) = Pr ( βXˆje+ ϵje> 0 )
Les erreurs standard ne seront pas correctes car n'est pas une variable aléatoire mais une quantité estimée. Vous pouvez corriger cela en amorçant le premier et le deuxième étage ensemble. Dans Stata, ce serait quelque chose commeXˆje
// use a toy data set as example
webuse nlswork
// set up the program including 1st and 2nd stage
program my2sls
reg grade age race tenure
predict grade_hat, xb
probit union grade_hat age race
drop grade_hat
end
// obtain bootstrapped standard errors
bootstrap, reps(100): my2sls
Dans cet exemple, nous voulons estimer l'effet des années de scolarité sur la probabilité d'être membre d'un syndicat. Étant donné que les années d'éducation sont susceptibles d'être endogènes, nous l'instruisons avec des années d'ancienneté dans la première étape. Bien sûr, cela n'a aucun sens du point de vue de l'interprétation, mais cela illustre le code.
Assurez-vous simplement d'utiliser les mêmes variables de contrôle exogènes à la fois au premier et au deuxième étage. Dans l'exemple ci-dessus, ce sont age, race
alors que l'instrument (non sensible) tenure
n'est là que dans la première étape.