J'ai un ensemble de données longitudinales d'individus et certains d'entre eux ont été soumis à un traitement et d'autres non. Tous les individus sont inclus dans l'échantillon de la naissance jusqu'à l'âge de 18 ans et le traitement a lieu à un âge compris entre cette plage. L'âge du traitement peut différer d'un cas à l'autre. En utilisant l'appariement des scores de propension, je voudrais associer les unités traitées et témoins par paires avec l'appariement exact de l'année de naissance de sorte que je puisse suivre chaque paire de leur année de naissance jusqu'à l'âge de 18 ans. En tout, il y a environ 150 personnes traitées et 4000 personnes non traitées. Après l'appariement, l'idée est d'utiliser une stratégie de différence dans les différences pour estimer l'effet du traitement.
Le problème auquel je suis confronté en ce moment est de faire la correspondance avec les données du panel. J'utilise la psmatch2
commande de Stata et je fais correspondre les caractéristiques des ménages et des individus en utilisant l'appariement des scores de propension. En général, avec les données du panel, il y aura différentes correspondances optimales à chaque âge. Par exemple: si A est traité, B et C sont des témoins, et tous sont nés en 1980, alors A et B peuvent être appariés en 1980 à l'âge 0 tandis que A et C sont appariés en 1981 à l'âge 1 et ainsi de suite . A peut également être associé à ses propres valeurs de prétraitement des années précédentes.
Pour contourner ce problème, j'ai pris la moyenne de toutes les variables variant dans le temps de sorte que l'appariement puisse identifier les individus qui sont en moyenne les plus similaires sur la durée de l'échantillon et je fais l'appariement séparément pour chaque groupe d'âge de 0 à 18 ans. Malheureusement, cela correspond toujours à une unité de contrôle différente pour chaque unité traitée par groupe d'âge.
Si quelqu'un pouvait me diriger vers une méthode pour faire l'appariement par paire avec les données du panel dans Stata, ce serait très apprécié.
Il n'y a aucun moyen de le faire dans Stata ou tout autre logiciel que je connaisse.
Si vous essayez de corriger un estimateur d'appariement biaisé avec des techniques de données de panel, voici une approche qui peut fonctionner. Si vous pouvez supposer que l'appariement prend en charge une partie, mais pas la totalité du biais de sélection, mais que le biais reste largement constant dans le temps, vous pouvez supprimer la partie invariante dans le temps du biais en construisant des estimations d'appariement distinctes dans chaque période et en prenant la différence.
Les articles de Heckman, Ichimura, Smith et Todd 1998 Econometrica et Eichler et Lechner 2002 Labor Economics sont des exemples de cette approche. En revanche, 150 observations traitées peuvent ne pas être suffisantes pour que cette approche fonctionne.
la source
Pas:
Comme cela a été mentionné en détail par Greg, vous pouvez utiliser un ensemble de données transversales, soit sur les moyens de prétraitement, soit sur une période de prétraitement spécifique pour générer l'appariement.
En utilisant l'ensemble du panneau, vous affectez des variables d'indicateur pour
a. traitéIndividuel
b. traitéesPériode, cette dernière est égale à zéro dès que le traitement a lieu pour l'individu traité.
Étant donné que le moment où la période de traitement traitée passe de 0 à 1 varie selon les individus et ne passe jamais à 1 pour non traité, vous devez attribuer le même point de départ de la correspondance traitée à la correspondance non traitée. C'est intuitif mais j'aimerais quand même voir une bonne référence qui justifie cette approche que je n'ai pas trouvée jusqu'à présent.
La configuration de la régression serait:
où le terme d'interaction vous donne l'effet du traitement.
la source
Avez-vous envisagé d'utiliser le commande nnmatch ?
J'utilise cette commande et elle est assez complète. Il prend en compte différents algorithmes d'appariement ainsi que des cas dans lesquels le score de propension est le même pour certains individus du groupe témoin. Bien sûr, le traitement de ce cas dépend de l'algorithme de correspondance, si vous prenez k-le plus proche voisin ou le noyau ou autre.
la source