Littérature sur la régression quantile IV

16

Au cours des derniers mois, j'ai lu intensivement sur la régression quantile en préparation de ma thèse de maîtrise cet été. Plus précisément, j'ai lu la plupart des livres de Roger Koenker de 2005 sur le sujet. Maintenant, je veux étendre ces connaissances existantes aux techniques de régression quantile qui permettent des variables instrumentales (IV). Cela semble être un domaine de recherche actif qui se développe à un rythme rapide.

Quelqu'un peut-il me suggérer:

  • articles ou autres publications sur la régression quantile IV
  • un bref aperçu de ces différentes techniques statistiques
  • les avantages et les inconvénients des différentes techniques

Je recherche principalement de la littérature pour me lancer et avoir un bon aperçu de ce qui existe. Le premier point est donc important. Les deuxième et troisième seraient bien d'avoir! Je m'intéresse également principalement aux méthodes transversales, mais les méthodes par panel sont également les bienvenues.

Merci d'avance.

AlexH
la source

Réponses:

24

Même si cette question a déjà une réponse acceptée, je pense que je peux encore y contribuer. Le livre de Koenker (2005) ne vous mènera vraiment pas loin car les développements de la régression quantile IV ont commencé à s'accélérer à cette époque.

Les premières techniques de régression quantile IV incluent le cadre de la chaîne causale de Chesher (2003) , qui a été développé plus avant dans l'approche des écarts moyens pondérés (WAD) par Ma et Koenker (2006) . Dans cet article, ils présentent également l'approche des variables de contrôle. Une idée similaire a été utilisée par Lee (2007) qui a dérivé un estimateur de régression quantile IV à l'aide de fonctions de contrôle.
Tous ces estimateurs utilisent une structure d'erreur triangulaire supposée qui est nécessaire pour l'identification. Le problème avec cela est que cette structure triangulaire est invraisemblable pour les problèmes d'endogénéité qui surviennent en raison de la simultanéité. Par exemple, vous ne pouvez pas utiliser ces estimateurs pour un problème d'estimation de l'offre et de la demande.

L'estimateur d'Abadie, Angrist et Imbens (2002), mentionné par Dimitriy V. Masterov, suppose que vous avez à la fois une variable endogène binaire et un instrument binaire. En général, il s'agit d'un cadre très restrictif mais il étend l'approche LATE de la régression linéaire IV aux régressions quantiles. C'est bien parce que de nombreux chercheurs, en particulier en économie, connaissent le concept LATE et l'interprétation des coefficients qui en résultent.

L'article fondateur de Chernozhukov et Hansen (2005) a vraiment donné le coup d'envoi à cette littérature et ces deux gars ont fait beaucoup de travail dans ce domaine. L'estimateur de régression quantile IV (IVQR) fournit un lien naturel avec l'estimateur 2SLS dans le contexte quantile. Leur estimateur est implémenté via Matlab ou Ox comme l'a souligné Dimitriy mais vous pouvez oublier ce document de Kwak (2010). Ce document n'a jamais été publié dans le journal Stata et son code ne fonctionne pas correctement. Je suppose qu'il a abandonné ce projet.
À la place, vous devriez considérer l'estimateur IVQR (SEE-IVQR) des équations d'estimation lissées de Kaplan et Sun (2012). Il s'agit d'un estimateur récent qui représente une amélioration par rapport à l'estimateur IVQR d'origine en termes de vitesse de calcul (il évite l'algorithme de recherche de grille contraignant) et d'erreur quadratique moyenne. Le code Matlab est disponible ici .

L'article de Frölich et Melly (2010) est intéressant car il considère la différence entre la régression quantile conditionnelle et inconditionnelle. Le problème de la régression quantile en général est qu'une fois que vous incluez des covariables dans votre régression, l'interprétation change. Dans OLS, vous pouvez toujours passer de l'attente conditionnelle à l'attente inconditionnelle via la loi des attentes itérées, mais pour les quantiles, cela n'est pas disponible. Ce problème a été montré pour la première fois par Firpo (2007) et Firpo et al. (2009). Il utilise une fonction d'influence recentrée afin de marginaliser les coefficients de régression quantile conditionnelle de sorte qu'ils puissent être interprétés comme les coefficients OLS habituels. Pour votre objectif, cet estimateur n'aidera pas beaucoup car il ne permet que des variables exogènes. Si vous êtes intéressé, Nicole Fortin rend le code Stata disponible sur son site Web.

L'estimateur de régression quantile IV inconditionnel le plus récent que je connaisse est celui de Powell (2013) . Son estimateur de régression quantile généralisé (IV) vous permet d'estimer les effets marginaux du traitement quantile en présence d'endogénéité. Quelque part sur le site Web de RAND, il rend également son code Stata disponible, mais je ne l'ai pas trouvé pour l'instant. Depuis que vous l'avez demandé: dans un article précédent, il avait implémenté cet estimateur dans le contexte des données de panel (voir Powell, 2012 ). Cet estimateur est excellent car, contrairement à toutes les méthodes QR de données de panel précédentes, cet estimateur ne repose pas sur de grandes asymptotiques T (que vous n'avez généralement pas, du moins pas dans les données microéconométriques).

Enfin et surtout, une variante plus exotique: l'estimateur IVQR censuré (CQIV) de Chernozhukov et al. (2011) permet de prendre soin des données censurées - comme son nom l'indique. Il s'agit d'une extension de l'article de Chernozhukov et Hong (2003) que je ne relie pas parce que ce n'est pas pour le contexte IV. Cet estimateur est lourd sur le plan des calculs, mais si vous avez censuré des données et aucun autre moyen de les contourner, c'est la voie à suivre. Amanda Kowalski a publié le code Stata sur son site Web ou vous pouvez le télécharger depuis RePEc. Cet estimateur (et, en passant, également l'IVQR et SEE-IVQR) supposent que vous avez une variable endogène continue. J'ai utilisé ces estimateurs dans le contexte des régressions des gains où l'éducation était ma variable endogène qui prenait entre 18 et 20 valeurs, donc pas exactement continue. Mais dans les exercices de simulation, je pouvais toujours montrer que ce n'était pas un problème. Cependant, cela dépend probablement de l'application, donc si vous décidez de l'utiliser, revérifiez-le.

Andy
la source
C'est une réponse formidable!
Dimitriy V. Masterov
2
Mise à jour brève et très égocentrique: Kaplan et Sun (2012) susmentionnés ont été publiés en 2017; des liens vers les versions publiées et acceptées (en accès libre) ainsi que des liens vers les codes MATLAB et R sont disponibles à faculty.missouri.edu/~kaplandm Des documents / codes plus généraux (autorisant les séries chronologiques et les données de panel) seront bientôt disponibles (disponibles par e-mail pour maintenant) ... en fait, j'ai trouvé la critique très utile ci-dessus lors de la révision de l'introduction.
David M Kaplan