Existe-t-il une différence entre "contrôler pour" et "ignorer" d'autres variables dans la régression multiple?

50

Le coefficient d'une variable explicative dans une régression multiple nous indique la relation de cette variable explicative avec la variable dépendante. Tout cela, tout en "contrôlant" les autres variables explicatives.

Comment je l'ai vu jusqu'à présent:

Lors du calcul de chaque coefficient, les autres variables ne sont pas prises en compte, je les considère donc comme ignorées.

Ai-je raison quand je pense que les termes «contrôlé» et «ignoré» peuvent être utilisés de manière interchangeable?

Siddharth Gopi
la source
2
Cette question ne m'enthousiasmait pas tant que je n'avais pas vu les deux figurés comme une idée inspirante que @gung offrirait.
DWin
1
Vous n'étiez pas au courant de la conversation que nous avions ailleurs qui a motivé cette question, @DWin. C’était trop demander d’expliquer cela dans un commentaire, j’ai donc demandé au PO de poser la question de manière formelle. En fait, je pense que faire ressortir explicitement la distinction entre ignorer et contrôler d'autres variables dans la régression est une excellente question, et je suis heureux que cela ait été discuté ici.
gung - Rétablir Monica
2
voir aussi le premier diagramme ici
Glen_b
1
Les données utilisées dans cette question sont-elles disponibles pour que nous puissions les utiliser nous-mêmes en tant qu'échantillon instructif?
Larry

Réponses:

88

YX1X2YX1

  1. X1YX2
    Y=β0+β1X1+β2X2
  2. X1Y X2

    Y=β0+β1X1

X1Yβ^1X1X2

entrez la description de l'image ici

X1X2X2X2 X2X2X2=1X2=2X2=3X1YX2 X2

entrez la description de l'image ici

Une autre façon de penser à la distinction entre ignorer et contrôler une autre variable consiste à considérer la distinction entre une distribution marginale et une distribution conditionnelle . Considérez cette figure:

entrez la description de l'image ici

( Ceci est tiré de ma réponse ici: quelle est l'intuition derrière les distributions gaussiennes conditionnelles? )

YYXYX1=25X1=45X1

gung - Rétablir Monica
la source
2
Gung, c'est éclairant, je suis heureux d'avoir commis l'erreur d'utiliser le mot "ignorer" dans ma réponse à cette question. Je vais maintenant essayer de savoir comment exactement "le contrôle" des paquets statistiques pour les autres variables. (Ma première pensée est qu'ils utilisent une mesure telle que le coefficient de corrélation de Pearson. Avec beaucoup de variables explicatives, les choses se gâcheraient quand même) Merci pour cette réponse!
Siddharth Gopi
1
Je vous en prie, @garciaj, même si je n'ai pas encore terminé ;-). Je cherche un autre personnage; Je devrais le faire à partir de zéro.
Gay - Rétablir Monica
4
L'idée cruciale de la première figure est que ces points se trouvent dans un espace tridimensionnel, avec les cercles rouges sur un plan plat sur l'écran de l'ordinateur, les triangles bleus sur un plan parallèle un peu en avant de l'écran et le vert. points forts sur un avion un peu en avant de cela. Le plan de régression s'incline vers le bas à droite, mais s'incline vers le haut à mesure qu'il se déplace de l'écran vers vous. Notez que ce phénomène se produit parce que X1 et X2 sont corrélés. Si elles n'étaient pas corrélées, les bétas estimées seraient les mêmes.
gung - Rétablir Monica
1
Et ce type de corrélation entre les prédicteurs (par exemple, le scénario @gung) est ce qui sous-tend généralement un cas du paradoxe de Simpson . Dans un univers comportant plus de trois variables, il est sage de se rappeler que vos conclusions peuvent être cachées (ah!).
FairMiles
2
@MSIS, lorsque vous contrôlez une variable dans un modèle, le modèle tente de la maintenir constante (fixe) afin d'estimer tout le reste du modèle. Cependant, il ne s'agit que d'une tentative et d'une erreur aléatoire, elle n'est donc pas nécessairement identique à celle que vous obtiendriez si vous meniez une étude avec une variable physiquement fixée à une valeur donnée.
Gay - Rétablir Monica
8

Ils ne sont pas ignorés. S'ils étaient «ignorés», ils ne seraient pas dans le modèle. L'estimation de la variable explicative d'intérêt est conditionnelle aux autres variables. L'estimation est formée "dans le contexte de" ou "en tenant compte de l'impact" des autres variables du modèle.

DWin
la source
L'estimation est bien sûr soumise à d'autres variables. Mais nous devons le purifier en introduisant les soi-disant autres facteurs dans le modèle. Cependant, ces facteurs peuvent parfois être de nature catégorique et causer plus de problèmes que de donner une solution valable.
Subhash C. Davar