Que signifie (intuitivement) le fait de maintenir les autres variables constantes dans la régression?

9

Je recherche une explication à la fois 1) mécanique et 2) intuitive de la façon dont les effets des variables individuelles sont déterminés en maintenant les autres variables constantes.

Dans un exemple utilisant des données d'enquête, que signifie exactement:

"en maintenant un âge, un sexe et un revenu constants, l'effet de l'éducation est de ___"

D'après ce que je comprends, avec la régression, nous essayons de recréer le cadre expérimental et, dans l'exemple ci-dessus, nous essayons de comparer des sous-populations avec un âge, un sexe, un revenu, etc. égaux, mais avec des niveaux d'éducation différents et en estimant la différence moyenne de ces sous-populations. Des questions:

Cette intuition est-elle correcte?
Ces sous-populations existent-elles nécessairement? Que faire si l'enquête ne contient pas de répondants ayant exactement les mêmes valeurs sur les contrôles?
Comment détermine-t-on l'incertitude concernant les estimations de ces sous-populations?

regression interpretation FlacoT
la source

1

Étroitement liés: Comment exactement «contrôle-t-on les autres variables»? Peut-être aussi intéressant: y a-t-il une différence entre «contrôler» et «ignorer» d'autres variables dans la régression multiple?

gung - Réintégrer Monica

Les dérivées partielles sont-elles "intuitives" pour vous?

Aksakal

5

L'intuition est un sujet délicat, cela dépend du parcours de la personne. Par exemple, j'ai étudié les statistiques après avoir étudié la physique mathématique. Pour moi, l'intuition est dans les dérivées partielles. Considérons un modèle de régression

y_{i} = a + b_{X} X_{je} + b_{z} z_{je} + ε_{je}

$y_i=a+b_x x_i+b_z z_i+\varepsilon_i$ Il peut être reformulé comme

y_{je} = F (X_{je}, z_{je}) + ε_{je},

$y_i=f(x_i,z_i)+\varepsilon_i,$ où

f (x, z) = b_{x} x + b_{z} z

$f(x,z)=b_x x + b_z z$

Prenez une dérivée totale de la fonction $f()$ :

ré F = \frac{\partial F}{\partial X} ré X + \frac{\partial F}{\partial z} ré z

$df=\frac{\partial f}{\partial x}dx+\frac{\partial f}{\partial z}dz$

Voici comment dérivée partielle wrt $x$ est défini:

\frac{\partial F}{\partial X} = lim_{Δ X \to 0} \frac{F (X + Δ X, z) - F (X, z)}{Δ X}

$\frac{\partial f}{\partial x}=\lim_{\Delta x\to 0} \frac{f(x+\Delta x,z)-f(x,z)}{\Delta x}$ Vous maintenez constant et vous vous éloignez de . La dérivée partielle indique que haw sensitive est à un changement de . Vous pouvez voir que le bêta (coefficient) est la pente de la variable d'intérêt:

z

$z$

x

$x$

f

$f$

x

$x$

\frac{\partial F}{\partial X} = b_{X}

$\frac{\partial f}{\partial x}=b_x$

En d'autres termes, dans le modèle linéaire simple, vos coefficients sont des dérivées partielles (pentes) par rapport aux variables. C'est ce que "maintenir constant" signifie pour moi intuitivement.

Aksakal
la source

1

J'apprécie cette intuition, mais certaines parties de votre description pourraient, de façon inattendue, être problématique pour certaines personnes. Je voudrais attirer votre attention sur (1) comment définir une dérivée partielle pour les régresseurs catégoriels et (2) décider comment définir les dérivées partielles lorsque les régresseurs sont des fonctions d'autres régresseurs, comme dans la régression polynomiale ou lorsque des interactions sont incluses.

whuber

2

L'intuition est correcte à sa base. Je vais aussi essayer de répondre de manière brève et intuitive-
Ces sous-populations existent nécessairement parce que vous les maintenez constantes en: (a) échantillonnant vos sujets par rapport à vos covariables spéculées OU (b) vous mettez une contrainte sur sa variabilité (ie variance = 0). Cela se fait en prenant 1 groupe (par exemple, hommes uniquement, blonds uniquement, etc.) si sa variable catégorielle ou en prenant une moyenne d'une covariable donnée (âge, niveau de scolarité, revenu, etc.).

user122677
la source

6

Cette réponse semble exclure toutes les applications possibles de la régression à des ensembles de données non expérimentales ou observationnelles (sauf peut-être celles qui peuvent être agrandies avec plus d'observations, qui sont rares). En tant que tel, il semble être inutilement restrictif et ne rend donc probablement pas justice aux concepts sous-jacents.

whuber

2

Comme l'a répondu l'utilisateur 122677, l'intuition est bonne: en régression linéaire, chaque coefficient est la quantité de changement dans le résultat lorsqu'une valeur de variable est augmentée d'une unité tandis que toutes les autres variables restent constantes. En d'autres termes, les coefficients sont des dérivées partielles de la prédiction du modèle par rapport à chaque variable.

Quoi qu'il en soit, sachez que si notre modèle inclut des interactions, les variables ne peuvent pas être modifiées sans changer l'interaction et donc cette interprétation d'un coefficient ne peut pas avoir de sens comme un vrai changement. La même chose se produit avec la régression polynomiale, où aucun terme ne peut changer sans changer d'autres termes.

À propos de l'existence de ces sous-populations, elles n'ont pas besoin d'exister. Dans certains modèles expérimentaux, ils peuvent exister, mais dans les études d'observation avec des variables continues, il est très peu probable qu'ils existent. Par exemple:

Dans les plans complets d'expériences avec des variables binaires (ou finies discrètes), toutes les combinaisons de valeurs de variables se trouvent dans l'échantillon.
Dans les études d'observation avec des variables continues, chaque observation est très susceptible d'obtenir des valeurs uniques pour toutes les variables et, par conséquent, il est peu probable qu'il existe deux éléments avec toutes les variables égales sauf une.

Pere
la source

Que signifie (intuitivement) le fait de maintenir les autres variables constantes dans la régression?

Réponses: