Pourquoi utiliser un DV retardé comme variable instrumentale?

12

J'ai hérité d'un code d'analyse de données que, n'étant pas économétricien, j'ai du mal à comprendre. Un modèle exécute une régression de variables instrumentales avec la commande Stata suivante

ivreg my_dv var1 var2 var3 (L.my_dv = D2.my_dv D3.my_dv D4.my_dv)

Cet ensemble de données est un panneau avec plusieurs observations séquentielles pour cet ensemble de variables.

Pourquoi ce code utilise-t-il les valeurs décalées du DV comme instruments? Si je comprends bien (en fouillant dans un vieux manuel), l'estimation IV est utilisée lorsqu'il y a un problème en raison de la corrélation d'un régresseur avec le terme d'erreur. Cependant, rien n'est mentionné concernant le choix des décalages du DV comme instruments.

Un commentaire sur cette ligne du code mentionne la "causalité". Toute aide pour déterminer quel était l'objectif ici serait la bienvenue.

regression stata instrumental-variables laramichaels
la source

D'après votre question, vous lisez peut-être un peu le code. La syntaxe utilise les différences comme «instruments» pour estimer le décalage de la variable dépendante.

Andy W

lara: pourriez-vous modifier votre question pour expliquer en termes simples la signification du code stata coupé?

user603

7

Edit: Étant donné la clarification sur le code stata fourni par Andy W ci-dessous, j'ai changé ma réponse pour mieux répondre à la question. Vous trouverez l'ancienne version de ma réponse sous l'actuelle.

Il semble que votre code soit une tentative maladroite de bricoler l'estimateur Arellano-Bond (en supposant des estimations ivreg avec 2SOLS). Vous pouvez trouver plus de détails sur l'utilisation et la logique de l'estimateur A / B dans ce bel article de synthèse ainsi que dans cette introduction plus large.

En bref et en 3 lignes: bien que l'estimateur A / B soit en effet un estimateur IV (généralisé), il n'est pas utilisé pour aborder un problème de causalité. Les IV dans ce contexte sont utilisés pour fournir une estimation efficace du coefficient AR dans le contexte des données de panel.

Je recommanderais de ne pas réinventer la roue ici, et d'utiliser plutôt une boîte à outils prête à l'emploi pour effectuer de telles estimations. Pour stata, vous pouvez utiliser le package XTABOND2 (ou XTABOND si vous exécutez STAT11).

ancienne réponse:

$x_t$ $y_t$ $x_t$ $y_t$ $x_t$ $y_t$ $y_t$ $x_t$

$y_t$ $x_{t-1}$ $x_t$

$y_t\leftarrow x_{t-1}$ $x_{t-1} \leftarrow y_{t}$ $x$ $y$

$y_t$ $x_{t-1}$ $I(0)$

user603
la source

+1 D'accord avec cette interprétation à ce sujet ressemblant à DIY Arellano-Bond. NB: J'ai trouvé qu'Arellano-Bond n'était digne de confiance que lorsque le nombre d'unités transversales est très important - comme en plusieurs centaines. Arellano fait allusion autant dans ses articles et manuel en indiquant que la cohérence est dans le nombre d'unités de section transversale, et le taux de convergence n'est pas si rapide.

Cyrus S

5

Je ne connais pas Stata, donc je ne peux pas commenter le modèle spécifique. Mais l'utilisation de variables décalées est une approche assez courante lorsqu'il s'agit de biais de simultanéité en général et de création de variables instrumentales en particulier.

Supposons que vous ayez une rétroaction entre deux variables de votre modèle: la variable indépendante (comme le prix) et la variable dépendante (comme la quantité). Les deux sont alors endogènes (leurs causes proviennent de l'intérieur du modèle) et les perturbations du terme d'erreur affecteront les deux variables.

Pour résoudre ce problème, vous voulez rendre la variable indépendante (prix) exogène afin que les perturbations de l'erreur n'affectent que la variable dépendante (quantité). Ceci est accompli en créant de nouvelles variables exogènes en régressant les autres variables exogènes de votre modèle sur le prix. Ces nouvelles variables exogènes sont vos variables instrumentales (IV). Les IV sont dérivés de termes exogènes et ne sont donc pas corrélés avec l'erreur.

Mais pour ce faire, vous devez déterminer quelles variables sont exogènes afin qu'elles puissent être utilisées pour dériver les IV. Nous pouvons noter que des variables retardées "se sont produites" dans le passé et ne peuvent donc pas être corrélées avec l'erreur dans le présent. Les variables retardées sont donc exogènes et deviennent des candidats pratiques pour dériver des IV. (Cependant, notez que l'argument précédent échoue lorsque les erreurs sont corrigées automatiquement.)

Une bonne introduction et référence à ceci est l' économétrie introductive: une approche moderne par Wooldridge.

ars
la source

5

Pour ceux qui ne connaissent pas l'extrait de code suivant de Stata, l'OP fourni

ivreg my_dv var1 var2 var3 (L.my_dv = D2.my_dv D3.my_dv D4.my_dv)

cette équation peut être lue comme

$Y_t = \alpha + \beta_1 (Var1) + \beta_2 (Var1) + \beta_3 (Var1) + \beta_4 (\tilde{Y}_{t-1})$

$\tilde{Y}_{t-1}$

$\tilde{Y}_{t-1} = \alpha + Z_1(\Delta^{2}Y_t) + Z_2(\Delta^{3}Y_t) + Z_3(\Delta^{4}Y_t)$

(c.-à-d. que la première étape de l'équation IV se trouve entre parenthèses dans le code Stata)

Les deltas représentent des différences de deuxième, troisième et quatrième ordre, et ils sont utilisés comme instruments exclus pour estimer le décalage de la variable dépendante.

L. $t-1$ D.D2.

Au début, je ne pouvais penser à aucun raisonnement logique pour lequel quelqu'un ferait cela. Mais Kwak a souligné (en se référant à cet article ) que la méthode Arellano-Bond utilise les différences comme instruments pour estimer la composante autorégressive du modèle. (En outre, j'avais initialement supposé que les différences n'auraient d'effet que si la série n'est pas stationnaire, ce que Bond déclare dans cet article lié, les différences ne seront que des instruments faibles dans le cas où la série est une marche aléatoire, à la p. 21 )

En tant que suggestions de lectures complémentaires comme introductions aux variables instrumentales,

Une autre affiche dans cette réponse (Charlie) liée à quelques diapositives qu'il a préparées et que je suggérerais mérite d'être examinée pour une introduction aux variables instrumentales. Je suggérerais également ce powerpoint qu'un de mes professeurs a préparé pour un atelier comme introduction. Comme dernière suggestion pour quiconque souhaite en savoir plus sur les variables instrumentales, vous devriez consulter le travail de Joshua Angrist.

Voici ma réponse initiale

L. $t-1$ D.D2.

Dans toutes les applications que j'ai vues, les gens utilisent le retard des variables indépendantes comme instruments pour estimer le retard de la variable dépendante (pour des raisons dont parle ars). Mais cela est basé sur l'hypothèse que les variables indépendantes décalées sont exogènes au terme d'erreur dans la période pendant laquelle elles sont appliquées.

Je ne connais aucun raisonnement dans lequel les différences de la variable dépendante seraient considérées comme exogènes. Pour autant que je sache, ce n'est pas une pratique acceptée de ne faire la différence que d'un côté de l'équation, et cela produirait des résultats plutôt illogiques ( voici un article qui critique quelqu'un sur la situation inverse dans laquelle il a inclus un niveau de variables comme prédicteur de une série différenciée.) Si vous réorganisez les termes de l'équation IV, cela ressemble en fait à un test de Dickey Fuller augmenté.

Alors que la réponse la plus simple serait de demander à la personne qui a écrit le code, quelqu'un peut-il donner un exemple dans lequel cette procédure serait acceptable, ou une situation dans laquelle cette procédure retournerait des résultats significatifs? En l'état, je ne peux penser à aucun raisonnement logique pour lequel les différences auraient un effet sur les niveaux, sauf dans le cas où la série n'est pas stationnaire.

Andy W
la source

Salut Andy. Je ne connais pas le code stata. C'est pourquoi je ne mentionne pas le code coupé dans ma réponse, qui doit être compris comme une réponse à la partie de la question qui est formulée en anglais.

user603

@kwak - Je ne critiquais pas votre message, je suis d'accord avec tout ce que vous avez dit. Je me demandais simplement s'il y avait une certaine logique pour expliquer pourquoi quelqu'un utiliserait les différences comme des instruments que je ne connaissais pas. Je ne peux imaginer aucune situation dans laquelle les différences satisferaient à l'une des exigences d'une telle procédure.

Andy W

Salut Andy:> je n'ai pas pris ton commentaire comme critique. Votre message met en évidence un aspect clé de la question que ni Rob ni moi (certes) avons compris. Au contraire, cela illustre l'importance de la collaboration.

user603

+1. Je n'ai pas vu tout cela plus tôt - Merci d'avoir noté le problème ainsi que le cours accéléré / mini sur la notation stata. J'ai pris votre premier commentaire pour laisser entendre que l'interprétation était erronée et j'ai répondu dans un sens très général. Je suis content que vous ayez été plus persévérant et que le kwak l'a compris.

ars

Pourquoi utiliser un DV retardé comme variable instrumentale?

Réponses: