Comment tester si un coefficient de régression est modéré par une variable de regroupement?

9

J'ai effectué une régression sur deux groupes de l'échantillon en fonction d'une variable modératrice (disons le sexe). Je fais un test simple pour l'effet modérateur en vérifiant si la signification de la régression est perdue sur un ensemble alors qu'elle reste dans l'autre.

Q1: La méthode ci-dessus est valide, n'est-ce pas?

Q2: Le niveau de confiance de ma recherche est fixé à 95%. Pour un groupe, la régression est significative à .000. Pour l'autre, il est significatif à 0,038 Donc, je crois que je dois accepter les deux régressions comme significatives et qu'il n'y a pas d'effet modérateur. En acceptant la régression, c'est significatif alors qu'il est prouvé qu'elle n'est pas à 0,01 heure du matin. Je provoque une erreur de type I (en acceptant l'argument de la falsification)?

Scorpion
la source

Réponses:

12

Votre méthode ne semble pas répondre à la question, en supposant qu'un «effet modérateur» est un changement d'un ou plusieurs coefficients de régression entre les deux groupes. Les tests de signification en régression évaluent si les coefficients sont non nuls. La comparaison des valeurs de p dans deux régressions vous en dit peu (voire rien) sur les différences de ces coefficients entre les deux échantillons.

Au lieu de cela, introduisez le sexe comme variable fictive et interagissez avec tous les coefficients d'intérêt. Ensuite, testez la signification des coefficients associés.

Par exemple, dans le cas le plus simple (d'une variable indépendante), vos données peuvent être exprimées sous la forme d'une liste de tuples où sont les sexes, codés et . Le modèle pour le sexe est(xi,yi,gi)gi010

yi=α0+β0xi+εi

(où indexe les données pour lesquelles ) et le modèle pour le sexe estigi=01

yi=α1+β1xi+εi

(où indexe les données pour lesquelles ). Les paramètres sont , , et . Les erreurs sont les . Supposons qu'elles soient indépendantes et identiquement distribuées avec des moyennes nulles. Un modèle combiné pour tester une différence de pentes (les ) peut être écrit commeigi=1α0α1β0β1εiβ

yi=α+β0xi+(β1β0)(xigi)+εi

(où s'étend sur toutes les données) car lorsque vous définissez le dernier terme disparaît, donnant le premier modèle avec , et lorsque vous définissez les deux multiples de combinent pour donner , donnant le deuxième modèle avec . Par conséquent, vous pouvez tester si les pentes sont les mêmes («l'effet modérateur») en ajustant le modèleigi=0α=α0gi=1xiβ1α=α1

yi=α+βxi+γ(xigi)+εi

et tester si la taille estimée de l'effet modérateur, , est nulle. Si vous n'êtes pas sûr que les interceptions seront les mêmes, incluez un quatrième terme:γ^

yi=α+δgi+βxi+γ(xigi)+εi.

Vous n'avez pas nécessairement à tester si est nul, si cela ne vous intéresse pas: il est inclus pour permettre des ajustements linéaires séparés aux deux sexes sans les forcer à avoir la même interception.δ^

La principale limitation de cette approche est l'hypothèse que les variances des erreurs sont les mêmes pour les deux sexes. Sinon, vous devez intégrer cette possibilité et cela nécessite un peu plus de travail avec le logiciel pour s'adapter au modèle et une réflexion plus approfondie sur la façon de tester la signification des coefficients.εi

whuber
la source
Merci, je peux comprendre comment cela fonctionne. Cette méthode fonctionne-t-elle si j'ai plusieurs variables de modération? Dites par exemple, région (rural / urbain), niveau d'éducation (diplômé du secondaire / non) Puis-je ajouter des variables fictives supplémentaires et tester l'effet?
scorpion
1
@whuber, je rencontre parfois des situations fonctionnellement similaires dans lesquelles l'analyste divise simplement l'échantillon en deux groupes, utilise le même ensemble de variables indépendantes pour les deux groupes et compare simplement les coefficients de manière qualitative. Y a-t-il des avantages à cette situation que je viens de décrire par rapport à cette formulation de l'utilisation des effets d'interaction?
Andy W
3
@Andy Sans aucune intention de paraître critique ou dépréciable, le seul avantage auquel je peux penser pour la méthode qualitative est qu'elle n'exige pas la compréhension ou la compétence de l'analyste: cela la rend accessible à plus de gens. L'approche qualitative est semée d'embûches. Par exemple, il peut y avoir de grandes différences apparentes entre les pentes et les intersections par hasard seulement. Une évaluation qualitative des seuls coefficients ne permettra pas de distinguer cette situation des effets réels.
whuber
1
@whuber, ma pensée initiale était la même, et j'ai récemment donné la même suggestion à un collègue qui a ignoré la suggestion par souci de simplicité (comme vous y avez fait allusion). J'ai pensé que le commentaire sur l'hypothèse que les variances d'erreur étaient les mêmes pour les deux sexes pourrait rendre l'approche des deux modèles plus appropriée étant donné que l'hypothèse est violée.
Andy W
1
@ Andy Oui, mais la possibilité de variances différentes n'améliore pas la valeur d'une comparaison non qualitative. Cela nécessiterait plutôt une comparaison quantitative plus nuancée des estimations des paramètres. Par exemple, comme approximation grossière (mais informative), on pourrait effectuer une variante d'un test t CABF ou Satterthwaite basé sur les variances d'erreur estimées et leurs degrés de liberté. Même un examen visuel d'un diagramme de dispersion bien construit serait facile à faire et beaucoup plus instructif que la simple comparaison des coefficients de régression.
whuber
-1

Je suppose que modérer une variable de regroupement fonctionnerait tout aussi bien lors de la comparaison des coefficients de régression à travers des vagues indépendantes de données transversales (par exemple, année 1, année 2 et année 3 en tant que groupe 1 groupe 2 et groupe 3)?

noisette
la source