Dans Mostly Harmless Econometrics: An Empiricist's Companion (Angrist et Pischke, 2009: page 209), je lis ce qui suit:
(...) En fait, le 2SLS (par exemple, l'estimateur Wald simple) qui vient d'être identifié est approximativement sans biais . Ceci est difficile à montrer formellement parce que le 2SLS juste identifié n'a pas de moments (c'est-à-dire que la distribution d'échantillonnage a des queues grasses). Néanmoins, même avec des instruments faibles, le 2SLS qui vient d'être identifié est approximativement centré où il devrait être. Nous disons donc que le 2SLS qui vient d'être identifié est sans biais médian. (...)
Bien que les auteurs disent que le 2SLS qui vient d'être identifié est sans biais médian, ils ne le prouvent pas et ne fournissent pas de référence à une preuve . À la page 213, ils mentionnent à nouveau la proposition, mais sans référence à une preuve. De plus, je ne trouve aucune motivation pour la proposition dans leurs notes de cours sur les variables instrumentales du MIT , page 22.
La raison peut être que la proposition est fausse car ils la rejettent dans une note sur leur blog . Cependant, le 2SLS juste identifié est approximativement sans biais médian, écrivent-ils. Ils motivent cela à l'aide d'une petite expérience de Monte-Carlo, mais ne fournissent aucune preuve analytique ou expression sous forme fermée du terme d'erreur associé à l'approximation. Quoi qu'il en soit, c'était la réponse des auteurs au professeur Gary Solon de la Michigan State University qui a fait le commentaire que le 2SLS qui vient d'être identifié n'est pas sans biais médian.
Question 1: Comment prouvez-vous que le 2SLS juste identifié n'est pas sans biais médian comme le soutient Gary Solon?
Question 2: Comment prouvez-vous que le 2SLS juste identifié est approximativement sans biais médian comme le soutient Angrist et Pischke?
Pour la question 1, je recherche un contre-exemple. Pour la question 2, je recherche (principalement) une preuve ou une référence à une preuve.
Je recherche également une définition formelle de la médiane sans biais dans ce contexte. Je comprends le concept comme suit: Un estimateur θ ( X 1 : n ) de θ basé sur un certain ensemble X 1 : n de n variables aléatoires est médiane sans biais pour θ si et seulement si la distribution de θ ( X 1 : n ) a une médiane θ .
Remarques
Dans un modèle qui vient d'être identifié, le nombre de régresseurs endogènes est égal au nombre d'instruments.
Le cadre décrivant un modèle de variables instrumentales qui vient d'être identifié peut être exprimé comme suit: Le modèle causal d'intérêt et l'équation de première étape est où X est un k × n + 1 matrice décrivant k régresseurs endogènes, et où les variables instrumentales est décrit par un k × n + 1 matrice Z . Ici W
décrit simplement un certain nombre de variables de contrôle (par exemple, ajoutées pour améliorer la précision); et et v sont des termes d'erreur.Nous estimons dans ( 1 ) à l' aide de 2SLS: Tout d' abord, la régression X sur Z contrôle pour W et acquérir les valeurs prédites X ; c'est ce qu'on appelle la première étape. D' autre part, la régression Y sur X contrôle pour W ; c'est ce qu'on appelle la deuxième étape. Le coefficient estimé de X dans la deuxième étape est nos 2SLS estimation de β .
Dans le cas le plus simple, nous avons le modèle et instrumentons le régresseur endogène x i avec z i . Dans ce cas, l'estimation de 2SLS de β est β 2SLS = de Z Y
oùsABreprésente la covariance échantillon entreAetB. On peut simplifier(2): β 2SLS=Σi(yi- ˉ y )zioùˉy=∑iyi/n,ˉx=∑ixi/netˉu=∑iui/n, oùnest le nombre d'observations.J'ai effectué une recherche documentaire en utilisant les mots «juste identifié» et «sans biais médian» pour trouver des références répondant aux questions 1 et 2 (voir ci-dessus). Je n'en ai trouvé aucun. Tous les articles que j'ai trouvés (voir ci-dessous) font référence à Angrist et Pischke (2009: page 209, 213) lorsqu'ils déclarent que le 2SLS qui vient d'être identifié est sans biais médian.
- Jakiela, P., Miguel, E. et Te Velde, VL (2015). Vous l'avez mérité: estimer l'impact du capital humain sur les préférences sociales. Experimental Economics , 18 (3), 385-407.
- An, W. (2015). Estimations des variables instrumentales des effets des pairs dans les réseaux sociaux. Recherche en sciences sociales , 50, 382-394.
- Vermeulen, W. et Van Ommeren, J. (2009). L'aménagement du territoire façonne-t-il les économies régionales? Une analyse simultanée de l'offre de logements, des migrations internes et de la croissance de l'emploi local aux Pays-Bas. Journal of Housing Economics , 18 (4), 294-310.
- Aidt, TS et Leon, G. (2016). La fenêtre d'opportunité démocratique: preuves des émeutes en Afrique subsaharienne. Journal of Conflict Resolution , 60 (4), 694-717.
Réponses:
Dans les études de simulation, le terme biais médian fait référence à la valeur absolue des écarts d'un estimateur par rapport à sa valeur réelle (que vous connaissez dans ce cas, car il s'agit d'une simulation, vous choisissez donc la vraie valeur). Vous pouvez voir un document de travail de Young (2017) qui définit le biais médian comme celui-ci dans le tableau 15, ou Andrews et Armstrong (2016) qui tracent des graphiques de biais médians pour différents estimateurs dans la figure 2.
Une partie de la confusion (également dans la littérature) semble provenir du fait qu'il existe deux problèmes sous-jacents distincts:
Le problème d'avoir un instrument faible dans un cadre qui vient d'être identifié est très différent de celui de nombreux instruments où certains sont faibles, cependant, les deux problèmes se confondent parfois.
De manière asymptotique, LIML et 2SLS ont la même distribution, cependant, dans de petits échantillons, cela peut être très différent. C'est particulièrement le cas lorsque nous avons de nombreux instruments et que certains sont faibles. Dans ce cas, LIML fonctionne mieux que 2SLS. LIML ici s'est avéré être sans biais médian. Ce résultat provient d'un tas d'études de simulation. Habituellement, les articles indiquant ce résultat se réfèrent à Rothberg (1983) «Propriétés asymptotiques de certains estimateurs dans les modèles structurels», Sawa (1972) ou Anderson et al. (1982) .
Steve Pischke fournit une simulation de ce résultat dans ses notes de 2016 sur la diapositive 17, montrant la distribution d'OLS, LIML et 2SLS avec 20 instruments dont un seul est réellement utile. La vraie valeur du coefficient est 1. Vous voyez que LIML est centré sur la vraie valeur tandis que 2SLS est biaisé vers OLS.
Maintenant, l'argument semble être le suivant: étant donné que LIML peut être montré comme étant sans biais médian et que dans le cas qui vient d'être identifié (une variable endogène, un instrument) LIML et 2SLS sont équivalents, 2SLS doit également être sans biais médian.
Cependant, il semble que les gens confondent à nouveau le cas des "instruments faibles" et des "nombreux instruments faibles" parce que dans le cadre qui vient d'être identifié, LIML et 2SLS vont être biaisés lorsque l'instrument est faible. Je n'ai vu aucun résultat où il a été démontré que LIML est impartial dans le cas qui vient d'être identifié lorsque l'instrument est faible et je ne pense pas que ce soit vrai. Une conclusion similaire ressort de la réponse d'Angrist et Pischke (2009) à Gary Solo à la page 2, où ils simulent le biais de OLS, 2SLS et LIML lors du changement de la force de l'instrument.
Pour de très petits coefficients de premier niveau <0,1 (en maintenant l'erreur standard fixe), c'est-à-dire une faible force de l'instrument, le 2SLS juste identifié (et donc le LIML juste identifié) est beaucoup plus proche de la limite de probabilité de l'estimateur OLS par rapport au valeur réelle du coefficient de 1.
Une fois que le coefficient du premier stade est compris entre 0,1 et 0,2, ils notent que la statistique F du premier stade est supérieure à 10 et qu'il n'y a donc plus de problème d'instrument faible selon la règle empirique de F> 10 de Stock et Yogo (2005). En ce sens, je ne vois pas comment LIML est censé être une solution pour un problème d'instrument faible dans le cas qui vient d'être identifié. Notez également que i) LIML a tendance à être plus dispersé et nécessite une correction de ses erreurs standard (voir Bekker, 1994) et ii) si votre instrument est réellement faible, vous ne trouverez rien dans la deuxième étape ni avec 2SLS ni LIML parce que les erreurs standard vont être trop importantes.
la source