Le traitement habituel dans les manuels de l'ajustement des variables superflues dans l'OLS stipule que l'estimateur est toujours sans biais, mais peut avoir une variance plus importante (voir, par exemple, Greene, Econometric Analysis, 7e éd., P. 58).
L'autre jour, je suis tombé sur le traitement par Judea Pearl du Paradoxe de Simpson et une belle page Web qui simule comment "l'inclusion pas à pas des variables de contrôle dans un modèle de régression change le signe d'une association causale estimée à chaque étape". Pour moi, cela contredit en quelque sorte la déclaration ci-dessus. Je pense que cela pourrait être un problème très subtil (bien qu'incroyablement important), donc tout pointeur vers d'autres publications serait très utile. Ce qui me frappe particulièrement, c'est que Greene prétend avoir une preuve pour son évaluation.
la source
Considérons un modèle de régression linéaire postulé
En termes d'algèbre (et non pas d'hypothèses stochastiques), l'estimateur OLS en notation matricielle est
Sa valeur attendue conditionnée à la matrice du régresseur est donc
Donc: si "l'exogénéité stricte" des régresseurs par rapport au terme d'erreur est vraie, ou, en d'autres termes, si tous les termes d'erreur sont indépendants de la moyenne de tous les régresseurs, passés et présents, (ce qui est l'hypothèse de référence dans le classique Modèle de régression linéaire), c'est-à-dire si , nous auronsE(u∣X)=0
en utilisant également la loi des attentes itérées.
Compte tenu de tout ce qui précède, que signifie «variable superflue»? Je suppose que cela signifie "sans rapport" avec la variable dépendante. Mais "sans rapport" devrait être traduit par "stochastiquement indépendant". Mais s'il est indépendant de la variable dépendante, il est nécessairement indépendant du terme d'erreur (et donc aussi strictement exogène par rapport à lui), donc tout ce qui précède vaut également pour toute variable superflue, et l'estimateur OLS est non biaisé même si, disons, la variable est "superflue" et le vrai modèle ne la contient pas.X2
C'est ainsi que les économétriciens comprennent le problème. Maintenant, dans un cadre plus général, «superflu» pourrait signifier que, disons, est indépendant de conditionnel à la présence de (ce qui, je le soupçonne, est plus proche de ce que Pearl a en tête). Pourtant, tant que est strictement exogène au terme d'erreur, le résultat de non biais est valable.X2 y X1 X2
la source