Je recherche une explication à la fois 1) mécanique et 2) intuitive de la façon dont les effets des variables individuelles sont déterminés en maintenant les autres variables constantes.
Dans un exemple utilisant des données d'enquête, que signifie exactement:
"en maintenant un âge, un sexe et un revenu constants, l'effet de l'éducation est de ___"
D'après ce que je comprends, avec la régression, nous essayons de recréer le cadre expérimental et, dans l'exemple ci-dessus, nous essayons de comparer des sous-populations avec un âge, un sexe, un revenu, etc. égaux, mais avec des niveaux d'éducation différents et en estimant la différence moyenne de ces sous-populations. Des questions:
- Cette intuition est-elle correcte?
- Ces sous-populations existent-elles nécessairement? Que faire si l'enquête ne contient pas de répondants ayant exactement les mêmes valeurs sur les contrôles?
- Comment détermine-t-on l'incertitude concernant les estimations de ces sous-populations?
regression
interpretation
FlacoT
la source
la source
Réponses:
L'intuition est un sujet délicat, cela dépend du parcours de la personne. Par exemple, j'ai étudié les statistiques après avoir étudié la physique mathématique. Pour moi, l'intuition est dans les dérivées partielles. Considérons un modèle de régression
Prenez une dérivée totale de la fonctionF( ) :
Voici comment dérivée partielle wrtX est défini:
En d'autres termes, dans le modèle linéaire simple, vos coefficients sont des dérivées partielles (pentes) par rapport aux variables. C'est ce que "maintenir constant" signifie pour moi intuitivement.
la source
la source
Comme l'a répondu l'utilisateur 122677, l'intuition est bonne: en régression linéaire, chaque coefficient est la quantité de changement dans le résultat lorsqu'une valeur de variable est augmentée d'une unité tandis que toutes les autres variables restent constantes. En d'autres termes, les coefficients sont des dérivées partielles de la prédiction du modèle par rapport à chaque variable.
Quoi qu'il en soit, sachez que si notre modèle inclut des interactions, les variables ne peuvent pas être modifiées sans changer l'interaction et donc cette interprétation d'un coefficient ne peut pas avoir de sens comme un vrai changement. La même chose se produit avec la régression polynomiale, où aucun terme ne peut changer sans changer d'autres termes.
À propos de l'existence de ces sous-populations, elles n'ont pas besoin d'exister. Dans certains modèles expérimentaux, ils peuvent exister, mais dans les études d'observation avec des variables continues, il est très peu probable qu'ils existent. Par exemple:
la source