Configuration des données pour les différences dans les différences

9

Quelle configuration est correcte pour un modèle de régression de différence en utilisant

Ouijest=α+γsT+λt+δ(Tt)+ϵjest

où T est un mannequin qui est égal à 1 si l'observation provient du groupe de traitement et d est un mannequin qui est égal à 1 dans la période suivant le traitement.

1) Échantillons aléatoires de chaque groupe et heure (c.-à-d. 4 échantillons aléatoires)

ou

2) Données de panel où les mêmes unités sont suivies sur les deux périodes?

Est-ce important et sinon, OLS peut-il être utilisé dans les deux cas?

B_Miner
la source
1
Je n'ai pas vu (1) terminé - l'analyse semble toujours = (2). Je ne sais pas pourquoi vous le feriez (1). Mais je n'ai pas vu beaucoup d'études DID.
charles
1
Des exemples de 1 sont présentés dans la section 13.2 de Wooldridge Introductory Econometrics
B_Miner

Réponses:

19

Une hypothèse clé de différence dans les différences (DID) est que les deux groupes ont une tendance commune dans la variable de résultat avant le traitement. Ceci est important pour faire valoir que le changement pour le groupe traité est dû au traitement et non pas au fait que les deux groupes étaient déjà différents l'un de l'autre au départ.

Si vous échantillonnez différentes personnes avant et après le traitement, cela affaiblira l'argument à moins que vos échantillons des groupes de traitement et de contrôle ne soient réellement aléatoires et volumineux. Il pourrait donc arriver que quelqu'un vous demande: "Comment pouvez-vous vous assurer que l'effet est dû au traitement et pas seulement parce que vous avez échantillonné différentes personnes?" - et il sera difficile de répondre. Vous pouvez éviter cette question en utilisant des données de panel car vous suivez les mêmes unités statistiques dans le temps et c'est généralement l'approche la plus solide.

Pour répondre à votre dernière question: oui les données sont importantes mais vous pouvez sûrement utiliser OLS pour estimer votre équation ci-dessus. Une chose importante qui par le passé était souvent négligée est l'estimation correcte des erreurs types. Si vous ne les corrigez pas, la corrélation en série les sous-estimera dans une bonne mesure et vous trouverez des effets importants même si vous ne devriez probablement pas. À titre de référence et de suggestions sur la façon de traiter ce problème, voir Bertrand et al. (2004) "Dans quelle mesure devons-nous faire confiance aux estimations des différences dans les différences?" .

Enfin, si vous avez des données agrégées (par exemple au niveau de l'État) ou si vous pouvez facilement agréger les vôtres et si vous souhaitez utiliser une méthode économétrique plus récente que DID, vous voudrez peut-être consulter Abadie et al. (2010) «Méthodes de contrôle synthétiques pour les études de cas comparatives» . La méthode de contrôle synthétique est de plus en plus utilisée dans la recherche actuelle et il existe des routines bien documentées pour R et Stata. C'est peut-être aussi quelque chose d'intéressant pour vous.

Andy
la source
C'est génial Andy! Puis-je résumer en disant que les deux configurations de données sont acceptables mais que les données de panel sont les plus faciles à faire un argument sur les hypothèses? Que les deux peuvent être adaptés par OLS mais que les erreurs standard de (en particulier la configuration des données du panneau, je présume) sont discutables en raison d'une éventuelle corrélation en série. Une configuration de panneau avec Newey West SE serait-elle une bonne solution?
B_Miner
6
Oui, pour le premier type de données, vous avez besoin d'hypothèses plus nombreuses et plus solides. Pour les erreurs standard, la correction Newey West devrait fonctionner. En fait, c'est analogue à l'une des méthodes de correction proposées par Bertrand et al. (ils utilisent des erreurs standard groupées). Une méthode plus récente utilise le bootstrap qui fonctionne plutôt bien (voir rbnz.govt.nz/research_and_publications/seminars_and_workshops/… ). J'espère que cela t'aides!
Andy