Coefficients de régression qui inversent le signe après avoir inclus d'autres prédicteurs

31

Imaginer

  • Vous exécutez une régression linéaire avec quatre prédicteurs numériques (IV1, ..., IV4)
  • Lorsque seul IV1 est inclus comme prédicteur, la version bêta normalisée est +.20
  • Lorsque vous incluez également IV2 à IV4, le signe du coefficient de régression normalisé de IV1 est inversé -.25(c'est- à -dire qu'il est devenu négatif).

Cela soulève quelques questions:

  • En ce qui concerne la terminologie, appelez-vous cela un "effet suppresseur"?
  • Quelles stratégies utiliseriez-vous pour expliquer et comprendre cet effet?
  • Avez-vous des exemples de tels effets dans la pratique et comment avez-vous expliqué et compris ces effets?
Jeromy Anglim
la source
Comment expliqueriez-vous une situation où les coefficients changent de signe lors de l'inclusion des prédicteurs mais où il n'y a certainement pas de multicolinéarité impliquée (comme le suggéreraient de faibles valeurs de VIF)? Fait intéressant, cependant, en incluant les prédicteurs, le signe a changé pour ce que j'attendais initialement (positif). Il était négatif dans une régression à une variable indépendante simple (la matrice de corrélation montrait une corrélation négative minimale avec la variable dépendante) mais devenait instantanément positive avec d'autres prédicteurs inclus.
@John pouvez-vous supprimer votre commentaire et publier votre question en tant que question distincte sur ce site (c'est-à-dire en utilisant "poser une question en haut". Si vous pensez que votre question est liée à cette question, ajoutez un lien vers cette question dans votre nouvelle question.
Jeromy Anglim
2
Un article que j'ai écrit avec Seth Dutter pourrait aider à clarifier les choses. Il est écrit principalement dans une perspective géométrique. Voici le lien: arxiv.org/abs/1503.02722 . -Brian Knaeble, B., et Dutter, S. (2015). Inversion des estimations des moindres carrés et estimation indépendante du modèle pour les directions des effets uniques. arXiv preprint arXiv: 1503.02722.

Réponses:

26

La multicollinéarité est le suspect habituel comme l'a mentionné JoFrhwld. Fondamentalement, si vos variables sont corrélées positivement, alors les coefficients seront corrélés négativement, ce qui peut conduire à un mauvais signe sur l'un des coefficients.

Une vérification consisterait à effectuer une régression des composantes principales ou une régression de crête. Cela réduit la dimensionnalité de l'espace de régression, en gérant la multicolinéarité. Vous vous retrouvez avec des estimations biaisées mais un MSE probablement plus bas et des signes corrigés. Que vous alliez avec ces résultats particuliers ou non, c'est une bonne vérification diagnostique. Si vous obtenez toujours des changements de signe, cela peut être théoriquement intéressant.

MISE À JOUR

À la suite du commentaire de la réponse de John Christie, cela pourrait être intéressant. L'inversion en association (amplitude ou direction) sont des exemples des effets Paradox de Simpson, Paradoxe de Lord et Suppression. Les différences concernent essentiellement le type de variable. Il est plus utile de comprendre le phénomène sous-jacent plutôt que de penser en termes de "paradoxe" ou d'effet particulier. Pour une perspective causale, le document ci-dessous explique bien pourquoi et je citerai longuement leur introduction et leur conclusion pour vous mettre en appétit.

Tu et al présentent une analyse de l'équivalence de trois paradoxes, concluant que tous les trois réitèrent simplement le changement sans surprise dans l'association de deux variables quelconques lorsqu'une troisième variable est statistiquement contrôlée. J'appelle cela peu surprenant parce que l'inversion ou le changement d'amplitude est commun dans l'analyse conditionnelle. Pour éviter l'un ou l'autre, nous devons éviter complètement l'analyse conditionnelle. Qu'en est-il des paradoxes de Simpson et de Lord ou de l'effet de suppression, au-delà de leur mise en évidence de l'évidence, qui attire les intérêts intermittents et parfois alarmistes de la littérature?

[...]

En conclusion, on ne saurait trop insister sur le fait que, bien que Simpson et les paradoxes connexes révèlent les dangers de l'utilisation de critères statistiques pour guider l'analyse causale, ils ne contiennent ni les explications du phénomène qu'ils prétendent représenter ni les indications sur la façon de les éviter. Les explications et les solutions résident dans un raisonnement causal qui s'appuie sur des connaissances de base et non sur des critères statistiques. Il est grand temps que nous arrêtions de traiter les signes et les symptômes mal interprétés («paradoxes») et que nous commencions à gérer la maladie («causalité»). Nous devrions à juste titre porter notre attention sur le problème permanent de la sélection des covariables pour l'analyse causale à l'aide de données non expérimentales.

ars
la source
1
Merci pour la suggestion d'explorer la régression d'arête ou de PCA. Juste un point secondaire concernant votre commentaire "si vos variables sont corrélées positivement, alors les coefficients seront corrélés négativement conduisant à une inversion de signe.": Les prédicteurs corrélés positivement ne conduisent généralement pas à une inversion de signe.
Jeromy Anglim
Désolé, c'est une explication bâclée d'une ligne écrite à la hâte. Fixé maintenant, merci.
ars
Grand point sur l'importance des mécanismes causaux.
Jeromy Anglim
14

Je crois que des effets comme ceux-ci sont souvent causés par la colinéarité (voir cette question ). Je pense que le livre sur la modélisation à plusieurs niveaux de Gelman et Hill en parle. Le problème est qu'il IV1est corrélé avec un ou plusieurs des autres prédicteurs, et lorsqu'ils sont tous inclus dans le modèle, leur estimation devient erratique.

Si le retournement de coefficient est dû à la colinéarité, il n'est pas vraiment intéressant de le signaler, car il n'est pas dû à la relation entre vos prédicteurs et le résultat, mais vraiment à la relation entre les prédicteurs.

Ce que j'ai vu suggéré pour résoudre ce problème est la résidualisation. Tout d'abord, vous ajustez un modèle pour IV2 ~ IV1, puis prenez les résidus de ce modèle comme rIV2. Si toutes vos variables sont corrélées, vous devriez vraiment toutes les résidualiser. Vous pouvez choisir de faire comme ça

rIV2 <- resid(IV2 ~ IV1)
rIV3 <- resid(IV3 ~ IV1 + rIV2)
rIV4 <- resid(IV4 ~ IV1 + rIV2 + rIV3)

Maintenant, ajustez le modèle final avec

DV ~ IV1 + rIV2 + rIV3 + rIV4

Maintenant, le coefficient de rIV2représente l'effet indépendant de IV2étant donné sa corrélation avec IV1. J'ai entendu dire que vous n'obtiendrez pas le même résultat si vous résidualisez dans un ordre différent, et que le choix de l'ordre de résidualisation est vraiment une question de jugement dans votre recherche.

JoFrhwld
la source
Merci d'avoir répondu. J'ai eu ces pensées. (a) Multicolinéarité: je suis d'accord. Sans cela, les coefficients ne devraient pas changer. (b) Est-ce intéressant? Je pense en fait que le retournement de signe peut avoir des interprétations théoriques intéressantes dans certains cas; mais peut-être pas d'un point de vue purement prédictif. (c) Résidualisation: je serais ravi d'entendre ce que les autres pensent de cette approche.
Jeromy Anglim
Je ne sais pas si la multicolinéarité pourrait être intéressante. Supposons que vous ayez obtenu des résultats Oet que vos prédicteurs soient Incomeet Father's Income. Le fait qui Incomeest corrélé avec Father's Incomeest intrinsèquement intéressant, mais ce fait serait vrai quelle que soit la valeur de O. Autrement dit, vous pouvez établir que Oles prédicteurs sont tous colinéaires sans jamais collecter vos données de résultat, ni même savoir quel est le résultat! Ces faits ne devraient pas devenir particulièrement intéressants une fois que vous savez que Oc'est vraiment le cas Education.
JoFrhwld
Je suggère que l'effet suppresseur peut être théoriquement intéressant, dont la multicolinéarité présumée fournit un point de départ pour une explication.
Jeromy Anglim
5

Voir Paradoxe de Simpson . En bref, l'effet principal observé peut s'inverser lorsqu'une interaction est ajoutée à un modèle. Sur la page liée, la plupart des exemples sont catégoriques, mais il y a un chiffre en haut de la page que l'on pourrait imaginer en continu. Par exemple, si vous avez un prédicteur catégorique et continu, le prédicteur continu pourrait facilement retourner le signe si celui-ci est ajouté et dans chaque catégorie, le signe est différent de celui du score global.

John
la source
Bon point. Tous les exemples du Paradoxe de Simpson s'appliquent aux variables catégorielles. Le concept de variable suppresseur est-il l'équivalent numérique?
Jeromy Anglim