Quand faut-il inclure le décalage de la variable dépendante dans un modèle de régression et quel décalage?

14

Les données que nous voulons utiliser comme variable dépendante ressemblent à ceci (ce sont des données de comptage). Nous craignons qu'étant donné sa composante cyclique et sa structure tendancielle, la régression se révèle en quelque sorte biaisée.

entrez la description de l'image ici

Nous utiliserons une régression binomiale négative au cas où cela aiderait. Les données sont un panel équilibré, un mannequin par individu (états). L'image montrée affiche la somme de la variable dépendante pour tous les états mais la plupart des états seuls ont un comportement similaire. Nous envisageons un modèle à effets fixes. Les variables dépendantes ne sont pas très fortement corrélées, une partie de la recherche consiste à trouver une relation inattendue parmi ces variables, donc une relation faible est en fait quelque chose de bien.

  1. Quels sont les dangers exacts de ne pas inclure une variable de décalage de la variable dépendante?
  2. S'il est nécessaire d'en inclure un, existe-t-il un test pour savoir lequel (s)?

La mise en œuvre se fait en R.

Remarque : j'ai lu ce post mais cela n'a pas aidé notre problème.

Mauricio G Tec
la source

Réponses:

14

Un modèle de panel dynamique pourrait avoir du sens si vous avez un modèle de représailles œil contre œil pour les homicides. Par exemple, si le taux d'homicides était largement dû à des querelles de gangs, les meurtres au moment pourraient bien être fonction des décès à t - 1 ou d'autres retards. tt-1

Je vais répondre à vos questions dans le désordre. Supposons que le DGP soit

yit=δyit1+xitβ+μi+vit,

où les erreurs et sont indépendantes les unes des autres et entre elles. Vous souhaitez effectuer un test pour savoir si (question 2).v δ = 0μvδ=0

Si vous utilisez OLS, il est facile de voir que et la première partie de l'erreur sont corrélées, ce qui rend OLS biaisé et incohérent, même en l'absence de corrélation série dans . Nous avons besoin de quelque chose de plus compliqué pour faire le test. vyit1v

La prochaine chose que vous pourriez essayer est l'estimateur à effets fixes avec la transformation intra, où vous transformez les données en soustrayant la moyenne chaque unité , ˉ y i , de chaque observation. Cela efface μ , mais cet estimateur souffre du biais de Nickell , lequel ne disparaît pas lorsque le nombre d'observations N augmente, il est donc incohérent pour les grands N et les petits panneaux T. Cependant, à mesure que T croît, vous obtenez une cohérence de δ et β . Judson et Owen (1999) font quelques simulations avec N = 20 ,yy¯iμNNTTδβ et T = 5 , 10 , 20 , 30 et ont trouvé la polarisation à êtreplusplus en δ et diminuant en T . Cependant, même pour T = 30 , le biais pourrait représenter jusqu'à 20 % de la valeur réelle du coefficient. Ce sont de mauvaises nouvelles ours! Ainsi, selon les dimensions de votre panel, vous souhaiterez peut-être éviter l'estimateur FE. Si δ > 0 , le biais est négatif, donc la persistance de y est sous-estimée. Si les régresseurs sont corrélés avec le décalage, le β sera également biaisé.N=20,100T=5,10,20,30δTT=3020%δ>0yβ

Une autre approche FE simple consiste à faire une première différence entre les données pour supprimer l'effet fixe et à utiliser pour instrumenter Δ y i t - 1 = y i t - 1 - y i t - 2 . Vous utilisez également x i t - x i t - 1 comme instrument pour lui-même. Anderson et Hsiao (1981)est la référence canonique. Cet estimateur est cohérent (tant que les X explicatifssont prédéterminés et que leyit2Δyit1=yit1yit2xitxit1Xles termes d'erreur d' origine ne sont pas corrélés en série), mais pas pleinement efficaces car ils n'utilisent pas toutes les conditions de moment disponibles et n'utilisent pas le fait que le terme d'erreur est maintenant différencié. Ce serait probablement mon premier choix. Si vous pensez que suit un processus AR (1), vous pouvez utiliser à la place les troisième et quatrième décalages de y .vy

Arellano et Bond (1991) ont dérivé un estimateur de la méthode des moments généralisés (GMM) plus efficace, qui a été étendu depuis, assouplissant certaines des hypothèses. Le chapitre 8 du panel de Baltagi est un bon aperçu de cette littérature, bien qu'il ne traite pas de la sélection des décalages pour autant que je sache. Il s'agit de mesures de pointe, mais plus exigeantes sur le plan technique.

Je pense que le plmpackage dans R a certains de ces éléments intégrés. Les modèles de panneaux dynamiques sont dans Stata depuis la version 10 , et SAS a au moins la version GMM . Aucun de ces modèles n'est un modèle de données de comptage, mais cela peut ne pas être un gros problème selon vos données. Cependant, voici un exemple d'un modèle de panneau de Poisson dynamique GMM dans Stata.

yβ

Dimitriy V. Masterov
la source
Vous utilisez donc les niveaux comme un instrument lorsque vous avez une série différenciée, et les différences lorsque vous avez une série de niveaux ?
Andy W
En laissant tomber l' indice , vous pouvez utiliser soit Δ y t - 2 = yiΔyt2=yt2yt3yt2Δyt1=yt1yt2
Dimitriy V. Masterov,