Que signifient «endogénéité» et «exogénéité»?

43

Je comprends que la définition de base de l'endogénéité est que n'est pas satisfait, mais qu'est-ce que cela signifie dans le sens du monde réel? J'ai lu l'article de Wikipedia, avec l'exemple de l'offre et de la demande, pour essayer de le comprendre, mais cela n'a pas vraiment aidé. J'ai entendu l'autre description de l'endogène et de l'exogène comme étant à l'intérieur du système et à l'extérieur du système, ce qui n'a toujours aucun sens pour moi.

Xϵ=0
utilisateur25901
la source
1
Les trois réponses ci-dessous sont très bonnes (+1 pour chacune). Si vous voulez une autre source d’information, ce sujet ici: Estimation de au lieu deb1x1+b2x2b1x1+b2x2+b3x3 et l’illustrons avec une simulation R.
gung - Réintégrer Monica
1
Lorsque vous avez une endogénéité, votre régression ne comporte plus d'estimateurs ni de statistiques de test utilisables.
Ivan
1
Je suis d’accord avec @gung et tiens à souligner qu’une réponse complète traiterait du terme "utilisable à quelle fin "? Bon nombre des réponses ci-dessus traitent très bien de cette question.
Matthew Drury
@ Matthew Il me semble que cet article tente de répondre à la question "qu'est-ce que cela signifie dans le sens du monde réel?" Il serait bon de voir l'explication étoffée afin que les gens puissent l'apprécier davantage.
whuber
@whuber Je ne sais pas, c'est tellement court que je ne peux pas vraiment le dire. Mais je pensais, par exemple, que le modèle estimé peut être utile pour la prédiction (ou simplement l'association) même si vous avez une endogénéité, de sorte que "plus d'estimateurs utilisables" semble faux sans précision.
Matthew Drury

Réponses:

69

La réponse de JohnRos est très bonne. En clair, endogénéité signifie que vous avez mal interprété le lien de causalité. Le modèle que vous avez écrit et estimé ne rend pas correctement compte de la manière dont la causalité fonctionne dans le monde réel. Quand tu écris:

Yi=β0+β1Xi+ϵi

vous pouvez penser à cette équation de plusieurs façons. Vous pourriez penser à cela comme un moyen pratique de prédire fonction des valeurs deVous pourriez penser à cela comme un moyen pratique de modéliser . Dans l'un ou l'autre de ces cas, l'endogénéité n'existe pas et vous n'avez pas à vous en préoccuper.X E { Y | X }YXE{Y|X}

Cependant, vous pouvez également considérer l'équation comme une incarnation de la causalité. Vous pouvez penser à comme la réponse à la question: "Qu'arriverait-il à si dans ce système et si de façon expérimentale ?" Si vous voulez y penser de cette façon, utiliser OLS pour estimer cela revient à supposer que: Y Xβ1YX

  1. YX causeY
  2. Yϵ causeY
  3. Xϵ ne cause pasX
  4. XY ne cause pasX
  5. Rien qui provoque provoque aussiXϵX

En cas d'échec de l'un des 3 à 3, vous obtiendrez généralement ou, pas tout à fait de manière équivalente, . Les variables instrumentales sont un moyen de corriger le fait que la causalité est erronée (en faisant une autre hypothèse causale différente). Un essai contrôlé randomisé parfaitement conduit est un moyen de forcer la vérité entre 3 et 5. Si vous choisissez au hasard, cela n’est certainement pas causé par , ou autre chose. Les méthodes dites "d'expérimentation naturelle" sont des tentatives de trouver des circonstances spéciales dans le monde où 3 à 5 sont vraies, même si nous ne pensons pas que 3 à 5 sont généralement vraies.C o v ( X , ε ) 0 X Y εE{ϵ|X}0Cov(X,ϵ)0XYϵ

Dans l'exemple de JohnRos, pour calculer la valeur salariale de l'éducation, vous avez besoin d'une interprétation causale de , mais il y a de bonnes raisons de croire que 3 ou 5 est faux.β1

Votre confusion est compréhensible, cependant. Il est très typique dans les cours sur le modèle linéaire que l’instructeur utilise l’interprétation causale de j’ai donnée ci-dessus en prétendant ne pas introduire la causalité, en prétendant que "ce n’est que des statistiques". C'est un mensonge lâche, mais c'est aussi très courant. β1

En fait, cela fait partie d'un phénomène plus vaste en biomédecine et en sciences sociales. Nous essayons presque toujours de déterminer l’effet causal de sur - c’est le but de la science après tout. D’autre part, il est également presque toujours possible de raconter une histoire qui mène à la conclusion que l’une des 3 à 3 est fausse. Il existe donc une sorte de malhonnêteté fluide, équivoque et pratiquée dans laquelle nous dissipons les objections en disant que nous ne faisons que du travail associatif, puis que l’interprétation causale est réintroduite ailleurs (normalement dans les sections d’introduction et de conclusion du document).YXY

Si vous êtes vraiment intéressé, le type à lire est Judea Perl. James Heckman est également bon.

Facture
la source
5
+1 Grande explication et commentaire. Bienvenue sur notre site!.
whuber
2
Pourriez-vous indiquer le travail de Heckman que vous recommanderiez pour acquérir une compréhension de base solide sur cette question?
Kenny LJ
J'ai une question: comment vérifier si ou E [ ϵ X ] = 0 est vrai "en utilisant vos données en main (plutôt que votre connaissance du domaine) qui peuvent ne pas provenir d'expériences, c'est-à-dire d'un ensemble de données d'observation"? Je pense qu'il n'y a aucun moyen de tester E [ ϵ | X ] = 0 ou E [ ϵ X ] = 0 n'utilisez que des données, car ϵ n'est pas observable, est-il vrai que l'endogénéité ne peut pas être testée à l'aide de données?E[ϵ|X]=0E[ϵX]=0E[ϵ|X]=0E[ϵX]=0ϵ
KevinKim
1
@ KevinKim Oui. n'est pas testable à l'aide de statistiques. ε ne peut pas être récupéré / estimé , sauf en faisant une estimation, puis faire des résidus. La récupération ne peut être effectuée qu'après une estimation. La récupération n’est correcte que si l’estimation est faite correctement. L'estimation ne se fait correctement si E { e | X } = 0 . Donc, circulaire. Les informations que E { e | X } = 0 doit provenir de connaissances de fond non statistiques. Un exemple de ceci est que CE{ϵ|X}=0ϵE{ϵ|X}=0E{ϵ|X}=0 e sont les résidus OLS. Cela est vrai indépendamment duque E { e | X } = 0 . Cov{X,e}=0eE{ϵ|X}=0
Bill
2
@ KevinKim C'est vrai. Et ce n'est pas seulement le modèle linéaire. C'est toutes les statistiques. Remarquez que lorsque quelqu'un dit que "la corrélation n'est pas une cause", il ne vous dit jamais quelle est la cause. La causalité est une théorie et ne peut être que de la théorie. Même un (parfaitement - et donc jamais --- conduite) RCT ne vous dit pas de causalité sans théorie.
Bill
18

Me laisser utiliser un exemple:

Supposons que vous souhaitiez quantifier l’effet (causal) de l’éducation sur le revenu. Vous prenez des années d'éducation et des données de revenu et régressez les unes contre les autres. Avez-vous récupéré ce que vous vouliez? Probablement pas! En effet, le revenu est également causé par des choses autres que l’éducation, mais qui sont corrélées à l’éducation. Appelons-les "compétences": nous pouvons supposer en toute sécurité que les années d'études sont affectées par les "compétences", car plus vous êtes qualifié, plus il est facile d'obtenir une éducation. Ainsi, si vous régressez vos années d'études sur le revenu, l'estimateur de l'effet éducation absorbe l'effet de "compétence" et vous obtenez une estimation trop optimiste du rendement de l'éducation. Cela revient à dire que l'effet de l'éducation sur le revenu est biaisé (à la hausse) parce que l'éducation n'est pas exogène au revenu.

L'endogénéité n'est un problème que si vous souhaitez récupérer des effets de causalité (contrairement à de simples corrélations). En outre, si vous pouvez concevoir une expérience, vous pouvez garantir que par attribution aléatoire. Malheureusement, cela est généralement impossible en sciences sociales.Cov(X,ϵ)=0

JohnRos
la source
1
Merci pour l'exemple et l'explication. Je ne comprends toujours pas ce que signifient endogénéité et exogénéité en anglais simplifié. Qu'est-ce que je veux dire exactement quand je dis qu'une variable est endogène ou pour cette raison exogène.
user25901
@ JohnRos Vous avez écrit "L'endogénéité n'est qu'un problème si vous voulez recouvrer des effets de causalité", alors il me semble qu'il est également possible de dire que: "l'exogénéité implique une causalité" ... Je n'ai jamais lu cette phrase ... mais c'est vrai? S'il est correct, il me semble que de nombreux manuels, parfois implicitement, supposent l'inférence causale comme des objectifs normaux.
markowitz
@markowitz: Chaque fois que vous déduisez des coefficients de régression, il est évident que vous voulez une causalité. Si vous ne voulez que des prédictions, la valeur des coefficients n'a pas vraiment d'importance, à condition que les prédictions soient bonnes. Il est vrai que les manuels classiques ne font pas cette distinction car, avant, la tâche de prédiction n'était pas une "science fondamentale" mais plutôt une "ingénierie" (et pardonnez-moi pour cette généralisation grossière)
JohnRos
Merci JohnRos, laissez-moi poser une autre question sur un point connexe. Le problème de l'estimation biaisée des coefficients n'a de sens que dans le modèle de régression de causalité, alors que les objectifs de prévision ne le sont certainement pas. C'est juste? Je demande ceci parce que ce point n'est pas clair dans aucun endroit.
markowitz
8

User25901 recherche une explication simple, réelle et réelle, de la signification des termes exogène et endogène. Répondre avec des exemples obscurs ou des définitions mathématiques ne répond pas vraiment à la question qui a été posée.

Comment puis-je obtenir une compréhension intestinale de ces deux termes?

Voici ce que je suis venu avec:

Exo - externe, extérieure Endo - interne, interne -géneuse - originaire de

Exogène: une variable est exogène pour un modèle si elle n'est pas déterminée par d'autres paramètres et variables du modèle, mais est définie de manière externe et toute modification qui lui est apportée provient d'efforts externes.

Endogène: une variable est endogène dans un modèle si elle est au moins en partie fonction d'autres paramètres et variables d'un modèle.

Bearvarine
la source
7
Ce sont des définitions intuitives raisonnables, mais il n’est pas nécessaire d’être aussi indifférent aux autres réponses.
Gay - Rétablir Monica
3
Faire appel à l'étymologie peut fournir des poignées utiles pour retenir la signification des termes techniques (cela fonctionne bien pour moi), mais il faut éviter d' utiliser une étymologie pour les justifier . Un bon nombre de termes (statistiques et autres) ne sont bien compris que par une étude minutieuse de leurs définitions mathématiques. Pour comprendre cette réponse, il faut comprendre clairement les utilisations prévues de mots et d'expressions tels que "déterminé par", "défini en externe", "remplacé par", par "forces externes" et par "partiellement [une] fonction", dont aucune n'est immédiatement apparent ou non ambigu.
whuber
6

Xϵ=0Xϵ^=0

Y=α+βX+γZ+noiseZXXnoise0ZXlog(ex)=x. C'est juste un fait mathématique. C'est le biais de variable omis.

IYXIXXY

Il s’agit des moindres carrés en deux étapes, ce qui est presque identique à IV.

utilisateur_générique
la source
Si je comprends bien, le 2SLS n’est pas une façon de faire IV, excusez-moi si je me trompe.
user25901
Les erreurs standard 2SLS sont incorrectes. J'oublie pourquoi ou comment, mais vous trouverez probablement quelque chose si vous recherchez "les erreurs standard IV 2SLS" sur Google. La plupart des progiciels implémentent 2sls avec la méthode (t (z)% *% (x)% *% t (z)% *% y
générique_user
1
X^X
Merci. Je venais juste de sortir de l'économétrie appliquée lorsque j'ai écrit ceci.
generic_user
-1

Dans la régression, nous voulons saisir l'impact quantitatif d'une variable indépendante (supposée exogène et ne dépendant pas d'autre chose) sur une variable dépendante identifiée. Nous voulons savoir quel est l’effet net d’une variable exogène sur une variable dépendante, ce qui signifie que la variable indépendante devrait être libre de toute influence d’une autre variable. Un moyen rapide de voir si la régression souffre du problème d'endogénéité consiste à vérifier la corrélation entre la variable indépendante et les résidus. Mais ceci n’est qu’une simple vérification, sinon des tests d’endogénéité formels doivent être entrepris.

Amon Magwiro
la source
3
Ce n'est pas vrai La corrélation entre les résidus et les variables explicatives d'une régression est zéro par construction. Ce n'est pas un test d'endogénéité.
Andy
E[ϵX]=0ϵy=b0+b1x+ϵϵE[e^i|x]=0e^iE[e^i|x]=0b^0+b^1x