Quelle est la bonne façon de spécifier un modèle de différence de différence avec des données de panneau de niveau individuel?
Voici la configuration: Supposons que j'ai des données de panel au niveau individuel intégrées dans les villes pendant plusieurs années et le traitement varie au niveau de la ville-année. Formellement, soit le résultat pour l'individu dans la ville et l'année et soit un indice pour savoir si l'intervention a affecté la ville dans l'année . Un estimateur DiD typique tel que celui décrit dans Bertrand et al (2004, p. 250) est basé sur un modèle OLS simple avec des termes à effet fixe pour la ville et l'année:
Mais cet estimateur ignore-t-il la structure des panels au niveau individuel (c'est-à-dire les observations multiples pour chaque individu dans les villes)? Est-il judicieux d'étendre ce modèle avec un terme d'effet fixe au niveau individuel ? De nombreuses applications DiD utilisent des données transversales répétées sans les données de panneau de niveau individuel.
Bertrand, Marianne, Esther Duflo et Sendhil Mullainathan. 2004. «Dans quelle mesure devons-nous faire confiance aux estimations des différences dans les différences?» Quarterly Journal of Economics 119 (1): 249–75.
Réponses:
Une caractéristique intéressante de la différence dans les différences (DiD) est que vous n'avez pas besoin de données de panneau pour cela. Étant donné que le traitement se déroule à un certain niveau d'agrégation (dans votre cas, les villes), vous n'avez qu'à échantillonner des individus au hasard dans les villes avant et après le traitement. Cela vous permet d'estimer et d'obtenir l'effet causal du traitement comme la différence de résultat post-pré attendue pour le traité moins la différence de résultat post-pré attendue pour le contrôle.
Il y a un cas où les gens utilisent des effets fixes individuels au lieu d'un indicateur de traitement et c'est quand nous n'avons pas un niveau d'agrégation bien défini auquel le traitement a lieu. Dans ce cas, vous où est un indicateur de la période de post-traitement pour les personnes qui reçu le traitement (par exemple, un programme du marché du travail qui se déroule partout). Pour plus d'informations à ce sujet, consultez ces notes de cours de Steve Pischke. D i t
Dans votre environnement, l'ajout d'effets fixes individuels ne devrait rien changer par rapport aux estimations ponctuelles. L'indicateur de traitement sera simplement absorbé par les effets fixes individuels. Cependant, ces effets fixes peuvent absorber une partie de la variance résiduelle et donc potentiellement réduire l'erreur standard de votre coefficient DiD.Ag
Voici un exemple de code qui montre que c'est le cas. J'utilise Stata mais vous pouvez le reproduire dans le package statistique de votre choix. Les «individus» ici sont en fait des pays mais ils sont toujours groupés selon un indicateur de traitement.
Vous voyez donc que le coefficient DiD reste le même lorsque les effets fixes individuels sont inclus (
areg
est l'une des commandes d'estimation des effets fixes disponibles dans Stata). Les erreurs standard sont légèrement plus serrées et notre indicateur de traitement d'origine a été absorbé par les effets fixes individuels et a donc chuté dans la régression.En réponse au commentaire,
j'ai mentionné l'exemple de Pischke pour montrer quand les gens utilisent des effets fixes individuels plutôt qu'un indicateur de groupe de traitement. Votre paramètre a une structure de groupe bien définie, donc la façon dont vous avez écrit votre modèle est parfaitement adaptée. Les erreurs standard doivent être regroupées au niveau de la ville, c'est-à-dire le niveau d'agrégation auquel le traitement a lieu (je ne l'ai pas fait dans l'exemple de code mais dans les paramètres DiD, les erreurs standard doivent être corrigées comme le démontre l'article de Bertrand et al. ).
Concernant les déménageurs, ils n'ont pas grand-chose à jouer ici. L'indicateur de traitement est égal à 1 pour les personnes qui vivent dans une ville traitée dans la période de post-traitement . Pour calculer le coefficient DiD, il suffit en fait de calculer quatre attentes conditionnelles, à savoirDst s t
Donc, si vous avez 4 périodes de post-traitement pour un individu qui vit dans une ville traitée pour les deux premières, puis qui déménage dans une ville de contrôle pour les deux périodes restantes, les deux premières de ces observations seront utilisées dans le calcul de et les deux derniers dans . Pour expliquer clairement pourquoi l'identification provient des différences de groupe au fil du temps et non des déménageurs, vous pouvez visualiser cela avec un graphique simple. Supposons que le changement dans le résultat ne soit vraiment dû qu'au traitement et qu'il ait un effet contemporain. Si nous avons une personne qui vit dans une ville traitée après le début du traitement mais déménage ensuite dans une ville de contrôle, son résultat devrait revenir à ce qu'elle était avant d'être traité. Ceci est illustré dans le graphique stylisé ci-dessous.E ( y i s t | s = 0 , t = 1 )E(yist|s=1,t=1) E(yist|s=0,t=1)
Vous voudrez peut-être toujours penser aux déménageurs pour d'autres raisons. Par exemple, si le traitement a un effet durable (c'est-à-dire qu'il affecte toujours le résultat même si la personne a bougé)
la source
La réponse courte est que l'utilisation d'un effet fixe à l'unité ou au niveau du groupe traité ne modifie pas l'estimation, mais seulement l'inférence. En règle générale, l'utilisation de l'effet fixe unitaire absorbera plus de variations, et donc vous aurez des erreurs standard plus petites.
Que les unités soient dans le même groupe agrégé ne change pas ce résultat (cela ne change que la façon dont vous définissez le niveau de votre groupe traité et le fait que vous ayez besoin d'un panneau au lieu de sections répétées).
Notez cependant que l'équivalence n'est valable que lorsqu'il n'y a pas de covariable X. Dès que vous avez des X, les résultats sont différents selon que vous utilisez des effets fixes unitaires ou de groupe.
L'exemple ci-dessous compare les 3 estimateurs, dans deux cas, avec et sans X. Les estimateurs sont:
Code:
la source