Et si l'interaction efface mes effets directs dans la régression?

25

Dans une régression, le terme d'interaction efface les deux effets directs associés. Dois-je abandonner l'interaction ou signaler le résultat? L'interaction ne faisait pas partie de l'hypothèse originale.

Jen
la source
6
vous pourriez probablement obtenir une meilleure réponse si vous fournissiez plus de détails sur votre plan expérimental, votre question de recherche et votre modèle statistique.
David LeBauer
J'ai des données d'enquête, v1 et v2 prédisent le résultat, comme je m'y attendais; cependant, l'interaction entre v1 (dichotomique) et v2 (5 groupes) n'est pas significative - et (ma question) rend mes effets directs v1 et v2 non significatifs aussi. Je ne trouve pas d'exemple sur le rapport de cela dans la littérature.
Jen
Si l'interaction v1: v2 n'est pas significative, devez-vous l'inclure dans le modèle?
Christopher Aden
Peut-être que cette question est pertinente? stats.stackexchange.com/questions/5184/…
Glen
Une autre possibilité est la confusion paradoxale: Exemple 1: epm.sagepub.com/content/56/3/430.abstract Exemple 2: optimalprediction.com/files/pdf/V1A19.pdf
user31256

Réponses:

24

Je pense que celui-ci est délicat; comme vous le laissez entendre, il y a un `` aléa moral '' ici: si vous n'aviez pas du tout regardé l'interaction, vous seriez libre et clair, mais maintenant que vous l'avez, il y a un soupçon de dragage de données si vous l'abandonnez.

La clé est probablement un changement dans la signification de vos effets lorsque vous passez du modèle des effets principaux uniquement au modèle d'interaction. Ce que vous obtenez pour les «effets principaux» dépend beaucoup de la façon dont vos traitements et contrastes sont codés. Dans R, le traitement par défaut contraste avec les premiers niveaux de facteur (ceux dont les prénoms sont classés par ordre alphabétique, sauf si vous avez fait tout votre possible pour les coder différemment) comme niveaux de base.

Dites (pour simplifier) ​​que vous avez deux niveaux, «contrôle» et «trt», pour chaque facteur. Sans l'interaction, la signification du paramètre 'v1.trt' (en supposant que le traitement contraste comme c'est le cas par défaut dans R) est "différence moyenne entre 'v1.control' et 'v1.trt' group"; la signification du paramètre 'v2.trt' est "différence moyenne entre 'v2.control' et 'v2.trt'".

Avec l'interaction, 'v1.trt' est la différence moyenne entre 'v1.control' et 'v1.trt' dans le groupe 'v2.control' , et de même 'v2.trt' est la différence moyenne entre les groupes v2 dans le groupe Groupe 'v1.control'. Ainsi, si vous avez des effets de traitement assez faibles dans chacun des groupes de contrôle, mais un effet important dans les groupes de traitement, vous pouvez facilement voir ce que vous voyez.

La seule façon dont je peux voir cela se produire sans terme d'interaction significatif, cependant, c'est si tous les effets sont assez faibles (de sorte que ce que vous entendez vraiment par "l'effet a disparu" est que vous êtes passé de p = 0,06 à p = 0,04, à travers la ligne de signification magique).

Une autre possibilité est que vous `` utilisez trop de degrés de liberté '' - c'est-à-dire que les estimations des paramètres ne changent pas vraiment beaucoup, mais le terme d'erreur résiduel est suffisamment gonflé en devant estimer 4 autres [= (2- 1) * (5-1)] paramètres selon lesquels vos termes significatifs deviennent non significatifs. Encore une fois, je ne m'attendrais à cela qu'avec un petit ensemble de données / des effets relativement faibles.

Une solution possible consiste à résumer les contrastes, bien que cela soit également délicat - vous devez être convaincu que «l'effet moyen» est significatif dans votre cas. La meilleure chose à faire est de tracer vos données et de regarder les coefficients et de comprendre ce qui se passe en termes de paramètres estimés.

J'espère que ça t'as aidé.

Ben Bolker
la source
4
Il n'y a pas d'aléa moral. Le calcul des principaux effets avec l'interaction incluse est très différent du calcul sans celui-ci. Vous devez faire le modèle additif pour signaler les effets principaux, puis inclure de toute façon l'interaction dans un modèle distinct. Vous ignorez les effets principaux du modèle qui inclut l'interaction car ce ne sont pas vraiment des effets principaux, ce sont des effets à des niveaux spécifiques des autres prédicteurs (y compris l'interaction).
John
John: est-ce qu'on, par cette logique, ignorerait également le terme d'interaction dans un modèle évaluant un effet d'interaction / modération quadratique (c'est-à-dire, y compris (1) les effets principaux, (2) l'interaction entre ces effets principaux, et (3) un terme quadratique pour l'un des principaux effets et un effet d'interaction curviligne (modération))?
Bento
11

Êtes-vous sûr que les variables ont été correctement exprimées? Considérons deux variables indépendantes et . L'énoncé du problème affirme que vous obtenez un bon ajustement dans le formulaireX1X2

Y=β0+β12X1X2+ϵ

S'il existe des preuves que la variance des résidus augmente avec , alors un meilleur modèle utilise une erreur multiplicative, dont une forme estY

Y=β0+(β12X1X2)δ

Cela peut être réécrit

log(Yβ0)=log(β12)+log(X1)+log(X2)+log(δ);

c'est-à-dire, si vous ré-exprimez vos variables sous la forme

η=log(Yβ0)ξ1=log(X1)ξ2=log(X2)ζ=log(δ)N(0,σ2)

alors le modèle est linéaire et a probablement des résidus homoscédastiques:

η=γ0+γ1ξ1+γ2ξ2+ζ,

et il se peut que et soient tous deux proches de 1.γ1γ2

La valeur de peut être découverte par des méthodes standard d' analyse exploratoire des données ou, parfois, est indiquée par la nature de la variable. (Par exemple, il pourrait s'agir d'une valeur minimale théorique atteignable par )β0Y

Supposons également que soit positif et important (dans le contexte des données) mais que soit sans conséquence. Ensuite, l'ajustement d'origine peut être ré-exprimé commeβ0β0

Y=(θ1+X1)(θ2+X2)+ϵ

où et les deux et sont petits. Ici, les termes croisés manquants et sont présumés suffisamment petits pour être inclus dans le terme d'erreur . Encore une fois, en supposant une erreur multiplicative et en prenant des logarithmes, on obtient un modèle avec uniquement des effets directs et sans interaction.θ 1 θ 2 θ 1 X 2 θ 2 X 1 ϵθ1θ2=β0θ1θ2θ1X2θ2X1ϵ

Cette analyse montre comment il est possible - même probablement dans certaines applications - d'avoir un modèle dans lequel les seuls effets semblent être des interactions. Cela se produit lorsque les variables (indépendantes, dépendantes ou les deux) vous sont présentées sous une forme inappropriée et que leurs logarithmes sont une cible plus efficace pour la modélisation. Les distributions des variables et des résidus initiaux fournissent les indices nécessaires pour déterminer si cela peut être le cas: les distributions asymétriques des variables et l'hétéroscédasticité des résidus (en particulier, ayant des variances à peu près proportionnelles aux valeurs prévues) sont les indicateurs.

whuber
la source
Hmmm. Tout cela semble plausible mais plus complexe que ma solution (les commentaires sur la question d'origine suggèrent que les prédicteurs sont tous deux catégoriques). Mais comme d'habitude, la réponse est "regardez les données" (ou les résidus).
Ben Bolker
1
@Ben Je suis d'accord mais je ne comprends pas d'où vient la perception de "plus complexe", car l'analyse des distributions univariées et l'analyse post-hoc des résidus sont essentielles dans tout exercice de régression. Le seul travail supplémentaire requis ici est de réfléchir à la signification de ces analyses.
whuber
1
Peut-être par «plus complexe», je veux juste dire «D'après mon expérience, j'ai vu les problèmes que j'ai mentionnés dans ma réponse (codage de contraste) se poser plus fréquemment que ceux auxquels vous avez fait référence (non-additivité)» - mais c'est vraiment un déclaration sur les types de données / personnes avec lesquelles je travaille plutôt que sur le monde.
Ben Bolker
5

Y=β0+β1X1+β2X2+β3(X1X2)=(b0+b2X2)+(b1+b3X2)X1

Cela introduit généralement une multicolinéarité élevée car le produit sera fortement corrélé avec les deux variables d'origine. Avec la multicolinéarité, les estimations de paramètres individuels dépendent fortement des autres variables qui sont prises en compte - comme dans votre cas. Comme contre-mesure, le centrage des variables réduit souvent la multicolinéarité lorsque l'interaction est considérée.

Je ne sais pas si cela s'applique directement à votre cas puisque vous semblez avoir des prédicteurs catégoriques mais utilisez le terme "régression" au lieu de "ANOVA". Bien sûr, ce dernier cas est essentiellement le même modèle, mais seulement après avoir choisi le schéma de codage de contraste comme Ben l'a expliqué.

caracal
la source
5

Cela peut être un problème d'interprétation, une mauvaise compréhension de ce qu'est réellement un coefficient dit "à effet direct".

Dans les modèles de régression avec des variables prédictives continues et sans termes d'interaction - c'est-à-dire sans termes construits comme le produit d'autres termes - le coefficient de chaque variable est la pente de la surface de régression dans la direction de cette variable. Elle est constante, quelles que soient les valeurs des variables, et est évidemment une mesure de l'effet de cette variable.

Dans les modèles avec interactions - c'est-à-dire avec des termes qui sont construits comme les produits d'autres termes - cette interprétation peut être faite sans autre qualification que pour les variables qui ne sont impliquées dans aucune interaction. Le coefficient d'une variable qui est impliqué dans les interactions est la pente de la surface de régression dans le sens de cette variable lorsque les valeurs de toutes les variables qui interagissent avec la variable en question sont égaux à zéro , et le test de signification du coefficient se réfère à la pente de la surface de régression uniquement dans cette région de l'espace de prédiction. Puisqu'il n'est pas nécessaire qu'il y ait réellement des données dans cette région de l'espace, le coefficient d'effet direct apparent peut avoir peu de ressemblance avec la pente de la surface de régression dans la région de l'espace prédictif où les données ont été réellement observées. Il n'y a pas de véritable "effet direct" dans de tels cas; le meilleur substitut est probablement «l'effet moyen»: la pente de la surface de régression dans le sens de la variable en question, prise à chaque point de données et moyenne sur tous les points de données. Pour plus d'informations, voir Pourquoi le centrage de variables indépendantes pourrait-il modifier les principaux effets avec modération?

Ray Koopman
la source