Définition de la validité d'une variable instrumentale

8

Que signifie exactement la «validité d'un instrument»?

Dans mon cours d'économétrie, nous venons de définir la validité de l'instrument comme , où est la variable instrumentale et est le terme d'erreur d'un modèle de régression univarié. Ensuite, nous avons également parlé de la force d'un instrument, mais je suis presque sûr d'avoir bien compris qu'il s'agit d'une exigence différente de la validité.E[Z|u]=0Zu

Dans les applications, je trouve souvent la définition de la validité comme , où est l'instrument et est la variable explicative endogène, plus l'exigence que (comme ci-dessus), qui est généralement défini comme une restriction d'exclusion.corr(Z,X)0ZXE[Z|u]=0

Je suis un peu confus et il n'est pas si facile de trouver le type d'amorce sur les approches IV dont j'ai besoin. Quelqu'un peut-il résoudre ces problèmes?

PhDing
la source
Cette question pourrait être mieux adaptée au site Web de l'économie pour Stack Exchange.
Mike Hunter
4
@DJohnson, je pense que cela pourrait être sur l'un ou l'autre. La compréhension des variables instrumentales est un sujet statistique. Lorsqu'une question peut porter sur un sujet sur plusieurs sites, je m'en remets généralement au choix du PO.
gung - Rétablir Monica
@DJohnson Je pense que c'est approprié pour l'estimation CV: IV n'est certainement pas limitée à l'économie / économétrie en application (bien que la technique trouve son origine dans la discipline économétrique). Les articles et les manuels d'épidémiologie, comme celui que j'ai cité dans ma réponse (et je peux penser à d'autres du haut de ma tête), abordent les méthodes d'estimation IV et d'identification variable IV.
Alexis

Réponses:

6

Les conditions requises pour que Z soit un instrument valide pour X sont:

  • Pertinence = Z doit être fortement corrélé avec X
  • Exogène = Z est corrélé avec Y uniquement par sa corrélation avec X; donc Z n'est pas corrélé avec l'erreur dans l'équation du résultat

L'idée principale derrière IV est que lorsque Z change, il devrait également modifier X, mais pas la partie gênante de X qui est corrélée à l'erreur. Pour obtenir l'effet de X sur Y, nous n'utilisons qu'une partie de la variation de X, la partie qui est entraînée par la variation de Z.

Dimitriy V. Masterov
la source
C'est une bonne explication en termes simples de ce que fait l'estimation IV: "mais pas la partie gênante de X qui est corrélée à l'erreur." Il y a une petite vidéo amusante (OK, pas si petite, d'une durée de 30 minutes) d'Antonakis sur YouTube sur l'endogénéité, où elle est décrite comme un miasme inégal pour mettre davantage l'accent sur sa nature gênante!
Marquis de Carabas
1
hautement est un mot trop fort. doit être corrélé avec , avec la mise en garde que si la relation est trop faible, vous rencontrerez probablement les problèmes bien connus associés aux instruments faibles. ZX
Matthew Gunn
@MatthewGunn Je n'ai pas spécifié de seuil exact, l'œil du spectateur en est donc très reconnaissant. L'article Econometrica de 1997 de Staiger et Stock soutient que le biais de l'échantillon fini (vers le plim de l'OLS) est proportionnel à la statistique F de première étape, donc plus c'est toujours mieux dans mon esprit.
Dimitriy V. Masterov
Convenu que "fortement" est l'un de ces termes susceptibles d'interprétation et qu'une corrélation plus élevée est meilleure. Pour citer les Rolling Stones, "vous ne pouvez pas toujours obtenir ce que vous voulez, mais si vous essayez un jour, vous trouverez peut-être ce dont vous avez besoin." : P J'écrirais personnellement " est suffisamment corrélé avec : les estimations basées sur des instruments faibles peuvent présenter un biais significatif d'échantillon fini." ZX
Matthew Gunn
1
@ user001 Non, cette hypothèse est invérifiable. L'insignifiance de cette spécification en dit très peu.
Dimitriy V. Masterov
8

Après l' inférence causale de Hernán et Robins , chapitre 16: Estimation des variables instrumentales, les variables instrumentales ont quatre hypothèses / exigences:

  1. Z doit être associé à .X

  2. Z doit affecter causalement que parY X

  3. Il ne doit pas y avoir de cause préalable des deux et .YZ

  4. L' effet de sur doit être homogène. Cette hypothèse / exigence a deux formes, faible et forte :XY

    • Faible homogénéité de l'effet de sur : L' effet de sur ne varie pas selon les niveaux de (c'est-à-dire que ne peut pas modifier l'effet de sur ).XYXYZZXY
    • Forte homogénéité de l'effet de sur : L'effet de sur est constant pour tous les individus (ou quelle que soit votre unité d'analyse).XYXY

Les instruments qui ne satisfont pas à ces hypothèses sont généralement invalides. (2) et (3) sont généralement difficiles à fournir des preuves solides (d'où des hypothèses ).

La version forte de la condition (4) peut être une hypothèse très déraisonnable à faire selon la nature des phénomènes étudiés (par exemple, les effets des médicaments sur la santé des individus varient généralement d'un individu à l'autre). La version faible de la condition (4) peut nécessiter l'utilisation d'estimateurs IV atypiques, selon les circonstances.

La faiblesse de l'effet de sur n'a pas vraiment de définition formelle. Certes, l'estimation IV produit des résultats biaisés lorsque l'effet de sur est faible par rapport à l'effet de (facteur de confusion non mesuré) sur , mais il n'y a pas de point dur et rapide, et le biais dépend de la taille de l'échantillon. Hernán et Robins critiquent (respectueusement et de manière constructive) l'utilité de la régression IV par rapport aux estimations basées sur le raisonnement causal formel de leur approche (c'est-à-dire l'approche du raisonnement causal formel des gens de causalité contrefactuelle comme Pearl, etc.).ZXZXUX

Hernán, MA et Robins, JM (2017). Inférence causale . Chapman & Hall / CRC.

Alexis
la source
Comment pouvez-vous faire référence et citer ce livre? Selon Amazon, il ne sera publié qu'en décembre de cette année.
Mike Hunter
1
@DJohnson Suivez mon lien (ils rendent les fichiers PDF pré-presse disponibles). ;) De plus, j'ai pris leur cours il y a 15 ans et ils le disséquaient même alors.
Alexis
@Alexis Quelle est l'intuition de pourquoi vous avez besoin d'homogénéité?
Dimitriy V. Masterov
@ DimitriyV.Masterov Il est un argument sophistiqué (voir point technique 16,3 à Hernán et Robins), mais revient à l'insuffisance des hypothèses / exigences 1-3 pour identifier pleinement l'effet causal moyen de sur . XY
Alexis
0

Les deux hypothèses peuvent être vues en examinant le système d'équations:

x=γ1+γ2z+ϵy=β1+β2x+γ3z+u
  • La force de l'instrument est liée au coefficient et au de cette équation (les deux doivent être suffisamment élevés)γ20R2

  • La validité est liée à l'hypothèse que , c'est-à-dire que n'a pas d'effet direct sur .γ3=0zy

Notez que nous ne pouvons pas tester , seulement l'assumer, ce qui explique pourquoi on l'appelle une hypothèse d' identification (= non testable).γ3=0

Matifou
la source
1
Le problème en ce qui concerne la force de l'instrument est que "suffisamment haut" n'a pas vraiment de définition formelle.
Alexis