L'ajustement pour les variables superflues biaise-t-il les estimations de l'OLS?

Le traitement habituel dans les manuels de l'ajustement des variables superflues dans l'OLS stipule que l'estimateur est toujours sans biais, mais peut avoir une variance plus importante (voir, par exemple, Greene, Econometric Analysis, 7e éd., P. 58).

L'autre jour, je suis tombé sur le traitement par Judea Pearl du Paradoxe de Simpson et une belle page Web qui simule comment "l'inclusion pas à pas des variables de contrôle dans un modèle de régression change le signe d'une association causale estimée à chaque étape". Pour moi, cela contredit en quelque sorte la déclaration ci-dessus. Je pense que cela pourrait être un problème très subtil (bien qu'incroyablement important), donc tout pointeur vers d'autres publications serait très utile. Ce qui me frappe particulièrement, c'est que Greene prétend avoir une preuve pour son évaluation.

least-squares bias causality simpsons-paradox Julian Schuessler
la source

Réponses:

Il n'y a aucune contradiction.

Le premier paragraphe parle de variables superflues.

Si le paradoxe de Simpson s'applique, les variables ne sont pas superflues.

Glen_b -Reinstate Monica
la source

Dans le problème posé sur le site Web, si l'on ajuste pour Z1 et Z2, l'estimation est biaisée. Z1 ne semble en effet pas être superflu, mais qu'en est-il de Z2? Par construction, il n'affecte ni X ni Y, mais son inclusion fausse l'estimation.

Julian Schuessler

Selon les relations exactes entre ces variables, une variable superflue avec une corrélation extrêmement élevée avec l'une des autres variables indépendantes peut conduire à des inversions de signe. Ceci est également couvert dans le livre de Greene dans la partie sur la multicolinéarité. Il déclare que des niveaux élevés de multicolinéarité peuvent conduire à des coefficients instables et peu fiables en raison de la quasi-singularité.

Andy

J'aurais dû mentionner que le commentaire précédent était plus pour @JulianSchuessler. Pour la réponse de Glen_b +1

Andy

Z2 ne provoque pas X ou Y, mais il est -connexe à X par l' intermédiaire de la variable non observée U, et à Y par l' intermédiaire Z3. Il est donc corrélé à la fois avec X et Y. Si vous définissez "superflu" comme "indépendant", alors Greene est correct - le fait de conditionner une variable Z indépendante de X et Y ne biaisera pas votre estimation (à l'exception des cas où l'indépendance est "infidèle"). aux relations causales). Je pense que la multicolinéarité est une question distincte. Le biais de conditionnement sur les variables "collisionneurs" ne nécessite pas une très forte dépendance entre les variables, et ne fait pas exploser la variance de votre estimation.

d

$d$

Lizzie Silver du

@LizzieSilver: Merci, c'est aussi ma compréhension actuelle, après avoir approfondi le travail de Pearl: si l'on bloque tous les chemins de porte dérobée en incluant les régresseurs appropriés, on obtient des estimations impartiales. Cependant, il est également tout à fait clair d'après les travaux de Pearl que l'ajustement pour les mauvaises variables, qui pourraient être corrélées avec X et Y, biaise l'estimation de l'effet causal de la variable d'intérêt. Je me demande donc quoi faire de la preuve habituelle d'impartialité. Peut-être que la mauvaise régression n'est pas biaisée, mais son coefficient n'est pas égal aux effets causaux mais à autre chose?

Julian Schuessler

Considérons un modèle de régression linéaire postulé

y_{i} = b_{0} + b_{1} X_{1 i} + b_{2} X_{2 i} + u_{i}, i = 1, . . ., n

$y_i = b_0 + b_1X_{1i} + b_2X_{2i} + u_i,\;\; i=1,...,n$

En termes d'algèbre (et non pas d'hypothèses stochastiques), l'estimateur OLS en notation matricielle est

\hat{b} = b + {(X^{'} X)}^{- 1} X^{'} u

$\hat b = b + \left(\mathbf X'\mathbf X\right)^{-1}\mathbf X'\mathbf u$

Sa valeur attendue conditionnée à la matrice du régresseur est donc

E (\hat{b} ∣ X) = b + {(X^{'} X)}^{- 1} X^{'} E (u ∣ X)

$E\left(\hat b\mid \mathbf X\right) = b + \left(\mathbf X'\mathbf X\right)^{-1}\mathbf X'E\left(\mathbf u\mid\mathbf X \right)$

Donc: si "l'exogénéité stricte" des régresseurs par rapport au terme d'erreur est vraie, ou, en d'autres termes, si tous les termes d'erreur sont indépendants de la moyenne de tous les régresseurs, passés et présents, (ce qui est l'hypothèse de référence dans le classique Modèle de régression linéaire), c'est-à-dire si , nous aurons $E\left(\mathbf u\mid\mathbf X \right)=\mathbf 0$

E (\hat{b} ∣ X) = b + 0 \Rightarrow E (\hat{b}) = b

$E\left(\hat b\mid \mathbf X\right) = b + \mathbf 0 \Rightarrow E(\hat b) = b$

en utilisant également la loi des attentes itérées.

Compte tenu de tout ce qui précède, que signifie «variable superflue»? Je suppose que cela signifie "sans rapport" avec la variable dépendante. Mais "sans rapport" devrait être traduit par "stochastiquement indépendant". Mais s'il est indépendant de la variable dépendante, il est nécessairement indépendant du terme d'erreur (et donc aussi strictement exogène par rapport à lui), donc tout ce qui précède vaut également pour toute variable superflue, et l'estimateur OLS est non biaisé même si, disons, la variable est "superflue" et le vrai modèle ne la contient pas. $X_2$

C'est ainsi que les économétriciens comprennent le problème. Maintenant, dans un cadre plus général, «superflu» pourrait signifier que, disons, est indépendant de conditionnel à la présence de (ce qui, je le soupçonne, est plus proche de ce que Pearl a en tête). Pourtant, tant que est strictement exogène au terme d'erreur, le résultat de non biais est valable. $X_2$ $y$ $X_1$ $X_2$

Alecos Papadopoulos
la source