Modèles en deux étapes: différence entre les modèles de Heckman (pour gérer la sélection des échantillons) et les variables instrumentales (pour gérer l'endogénéité)

16

J'essaie de comprendre la différence entre la sélection d'échantillons et l'endogénéité et à mon tour, comment les modèles de Heckman (pour traiter la sélection d'échantillons) diffèrent des régressions de variables instrumentales (pour traiter l'endogénéité).

Est-il exact de dire que la sélection des échantillons est une forme spécifique d'endogénéité, où la variable endogène est la probabilité d'être traitée?

De plus, il me semble que les modèles de Heckman et la régression IV sont des modèles à deux étapes, où la première étape prédit la probabilité d'être traité - je suppose qu'ils doivent différer en termes de ce qu'ils font empiriquement, de leurs objectifs et hypothèses, mais comment?

kyrenia
la source

Réponses:

23

Pour répondre à votre première question, vous avez raison de dire que la sélection des échantillons est une forme spécifique d'endogénéité (voir Antonakis et al. 2010 pour un bon examen de base de l'endogénéité et des remèdes courants), mais vous n'avez pas raison de dire que la probabilité d'être traité est la variable endogène, car c'est la variable de traitement elle-même ("attribution de traitement non aléatoire") - plutôt que la probabilité d'être traité - qui est endogène dans la sélection des échantillons. Rappelons que l'endogénéité se réfère à une situation où vous avez incorrectement identifié une relation causale entre le facteur X et le facteur Y, lorsque la «relation» observée est en fait due à un autre facteur Z qui affecte à la fois X et Y. Autrement dit, étant donné un modèle de régression :

yi=β0+β1xi+...+ϵi

l'endogénéité se produit lorsqu'un ou plusieurs de vos prédicteurs sont liés au terme d'erreur dans le modèle. Autrement dit, lorsque .Cov(x,ϵ)0

Les causes courantes de l'endogénité comprennent:

  1. Variables omises (certaines choses que nous ne pouvons tout simplement pas mesurer)
    • Motivation / choix
    • Capacité / talent
    • Auto-sélection
  2. Erreur de mesure (nous aimerions inclure , mais nous n'observons que x j )xjxj
  3. Simultanéité / bidirectionnalité (chez les enfants de moins de 5 ans, la relation entre l'indicateur d'état nutritionnel «poids pour l'âge» et le fait que l'enfant ait ou non une maladie récente peut être simultanée.

Différents types de problèmes nécessitent des solutions légèrement différentes, c'est là que réside la différence entre les corrections de type IV et de type Heckman. Bien sûr, il existe des différences dans la mécanique sous-jacente de ces méthodes, mais la prémisse est la même: qui est de supprimer l'endogénéité, idéalement via une restriction d'exclusion, c'est-à-dire un ou plusieurs instruments dans le cas de l'IV ou une variable qui affecte la sélection mais pas l'issue de l'affaire Heckman.

Pour répondre à votre deuxième question, vous devez réfléchir aux différences dans les types de limitations des données qui ont donné lieu au développement de ces solutions. J'aime à penser que l'approche de la variable instrumentale (IV) est utilisée lorsqu'une ou plusieurs variables sont endogènes, et qu'il n'y a tout simplement pas de bons proxy à coller dans le modèle pour supprimer l'endogénéité, mais les covariables et les résultats sont observés pour toutes les observations. Les corrections de type Heckman, en revanche, sont utilisées lorsque vous avez une troncature, c'est-à-dire que les informations ne sont pas observées pour celles de l'échantillon où la valeur de la variable de sélection == 0.

L'approche de la variable instrumentale (IV)

Prenons l'exemple économétrique classique de la régression IV avec l'estimateur des moindres carrés à deux degrés (2SLS): l'effet de l'éducation sur les gains.

(1)Earningsi=β0+β1OwnEdi+ϵi

Ici, le niveau de réussite scolaire est endogène car il est déterminé en partie par la motivation et la capacité de l'individu, qui affectent également les revenus d'une personne. La motivation et la capacité ne sont généralement pas mesurées dans les enquêtes auprès des ménages ou économiques. L'équation 1 peut donc être écrite pour inclure explicitement la motivation et la capacité:

Earningsi=β0+{β1OwnEdi+β2Motivi+β3Abili}+ϵi (2)

Depuis et A b i lMotivAbil ne sont pas réellement observés, l'équation 2 peut s'écrire:

(3),Earningsi=β0+β1OwnEdi+ui

(4).ui=β2Motivi+β3Abili+ϵi

Par conséquent, une estimation naïve de l'effet de la scolarité sur les gains via l'OLS serait biaisée. Cette partie que vous connaissez déjà.

Dans le passé, les gens ont utilisé l'éducation des parents comme instruments pour le niveau d'enseignement de la matière, car ils correspondent aux 3 exigences d'un instrument valide ( ):z

  1. doit être lié au prédicteur endogène - 𝐶 𝑜 𝑣 ( 𝑧 , 𝑥 ) 0 ,z𝐶𝑜𝑣(𝑧,𝑥)0
  2. ne peut pas être directement lié au résultat - 𝐶 𝑜 𝑣 ( 𝑧 , 𝑦 ) = 0 , etz𝐶𝑜𝑣(𝑧,𝑦)=0
  3. z cannot be related to the unobservable (u) characteristic (that is, z is exogenous) – 𝐶𝑜𝑣(𝑧,𝑢)=0

When you estimate the subject's education (OwnEd) using parents' education (MomEd and DadEd) at first stage and use the predicted value of education (OwnEd^) to estimate Earnings at second stage, you are (in very simplistic terms), estimating Earnings based on the portion of OwnEd

Corrections de type Heckman

Comme nous l'avons établi précédemment, la sélection non aléatoire d'échantillons est un type spécifique d'endogénéité. Dans ce cas, la variable omise est la façon dont les personnes ont été sélectionnées dans l'échantillon. En règle générale, lorsque vous avez un problème de sélection d'échantillon, votre résultat n'est observé que pour ceux pour lesquels la sélection d'échantillon variable == 1. Ce problème est également connu sous le nom de «troncature accidentelle» et la solution est communément appelée correction Heckman. L'exemple classique en économétrie est l'offre salariale des femmes mariées:

Wagei=β0+β1Educi+β2Experiencei+β3Experiencei2+ϵi (5)

Wages

Wagei=Xβ+ϵi (6)

LaborForcei=Zγ+νi (7)

That is, Wage=Wagei IFF LaborForcei>0 and Wage=. IFF LaborForcei0

The solution here is therefore to predict the likelihood of participation in the labor force at first stage using a probit model and the exclusion restriction (the same criteria for valid instruments apply here), calculate the predicted inverse Mills ratio (λ^) for each observation, and in second stage, estimate the wage offer using the λ^ as a predictor in the model (Wooldridge 2009). If the coefficient on λ^ is statistically equal to zero, there is no evidence of sample selection (endogeneity), and OLS results are consistent and can be presented. If the coefficient on λ^ is statistically significantly different from zero, you will need to report the coefficients from the corrected model.

References

  1. Antonakis, John, Samuel Bendahan, Philippe Jacquart, and Rafael Lalive. 2010. “On Making Causal Claims: A Review and Recommendations.” The Leadership Quarterly 21 (6): 1086–1120. doi:10.1016/j.leaqua.2010.10.010.
  2. Wooldridge, Jeffrey M. 2009. Introductory Econometrics: A Modern Approach. 4th ed. Mason, OH, USA: South-Western, Cengage Learning.
Marquis de Carabas
la source
1
In Heckman-type correction, how to interprete inverse Mills ratio values for each observation? Does it says the number of people who will work from the non-working population at a given moment?
Quirik
2

One should make a distinction between the specific Heckman sample selection model (where only one sample is observed) and Heckman-type corrections for self-selection, which can also work for the case where the two samples are observed. The latter is referred to as control function approach, and amounts to include into your second stage a term controlling for the endogeneity.

Let us have a standard case with an endogeneous dummy variable D, an instrument Z:

Y=β+β1D+ϵ
D=γ+γ1Z+u

Both approaches run a first stage (D on Z). IV uses a standard OLS (even if D is a dummy) Heckman uses a probit. But besides this, the main difference is on the way they use this first stage into the main equation:

  • IV: break the endogeneity by decomposing D into parts uncorrelated with ϵ, given by the prediction of D: Y=β+β1D^+ϵ
  • Heckman: model the endogeneity: keep the endogenous D, but add a function of the predicted values of the first stage. For this case, it is a pretty complicated function: Y=β+β1D+β2[λ(D^)λ(D^)]+ϵ where λ() is the inverse Mills ratio

The advantage of the Heckman procedure is that it provides a direct test for endogeneity: the coefficient β2. On the other side, the Heckman procedure relies on the assumption of joint normality of the errors, while the IV does not make any such assumption.

So you have the standard story that with normal errors, the control function will be more efficient (especially if ones uses the MLE instead of the two-step shown here) than the IV, but that if the assumption does not hold, IV would be better. As researchers have become more suspicious about the assumption of normality, the IV is used more often.

Matifou
la source
0

From Heckman, Urzua and Vytlacil (2006):

Example of selection bias: Consider the effects of a policy on the outcome of a country (e.g. GDP). If the countries that would have done well in terms of the unobservable even in the absence of the policy are the ones that adopt the policy, then the OLS estimates are biased.

Two main approaches have been adopted to solve this problem: (a) selection models and (b) instrumental variable models.

The selection approach models levels of conditional means. The IV approach models the slopes of the conditional means. IV does not identify the constants estimated in selection models.

The IV approach does not condition on D (the treatment). The selection (control function) estimator identifies the conditional means using control functions.

When using control functions with curvature assumptions, one does not require an exclusion restriction (does not require ZX) in the selection model. By assuming a functional form for the distribution of the error terms, one rules out the possibility that the conditional mean of the outcome equation equals the conditional control function, and thus you can correct for selection without exclusion restrictions. See also Heckman and Navarro (2004).

José Gabriel Astaiza-Gómez
la source