Imaginer
- Vous exécutez une régression linéaire avec quatre prédicteurs numériques (IV1, ..., IV4)
- Lorsque seul IV1 est inclus comme prédicteur, la version bêta normalisée est
+.20
- Lorsque vous incluez également IV2 à IV4, le signe du coefficient de régression normalisé de IV1 est inversé
-.25
(c'est- à -dire qu'il est devenu négatif).
Cela soulève quelques questions:
- En ce qui concerne la terminologie, appelez-vous cela un "effet suppresseur"?
- Quelles stratégies utiliseriez-vous pour expliquer et comprendre cet effet?
- Avez-vous des exemples de tels effets dans la pratique et comment avez-vous expliqué et compris ces effets?
regression
predictor
Jeromy Anglim
la source
la source
Réponses:
La multicollinéarité est le suspect habituel comme l'a mentionné JoFrhwld. Fondamentalement, si vos variables sont corrélées positivement, alors les coefficients seront corrélés négativement, ce qui peut conduire à un mauvais signe sur l'un des coefficients.
Une vérification consisterait à effectuer une régression des composantes principales ou une régression de crête. Cela réduit la dimensionnalité de l'espace de régression, en gérant la multicolinéarité. Vous vous retrouvez avec des estimations biaisées mais un MSE probablement plus bas et des signes corrigés. Que vous alliez avec ces résultats particuliers ou non, c'est une bonne vérification diagnostique. Si vous obtenez toujours des changements de signe, cela peut être théoriquement intéressant.
MISE À JOUR
À la suite du commentaire de la réponse de John Christie, cela pourrait être intéressant. L'inversion en association (amplitude ou direction) sont des exemples des effets Paradox de Simpson, Paradoxe de Lord et Suppression. Les différences concernent essentiellement le type de variable. Il est plus utile de comprendre le phénomène sous-jacent plutôt que de penser en termes de "paradoxe" ou d'effet particulier. Pour une perspective causale, le document ci-dessous explique bien pourquoi et je citerai longuement leur introduction et leur conclusion pour vous mettre en appétit.
la source
Je crois que des effets comme ceux-ci sont souvent causés par la colinéarité (voir cette question ). Je pense que le livre sur la modélisation à plusieurs niveaux de Gelman et Hill en parle. Le problème est qu'il
IV1
est corrélé avec un ou plusieurs des autres prédicteurs, et lorsqu'ils sont tous inclus dans le modèle, leur estimation devient erratique.Si le retournement de coefficient est dû à la colinéarité, il n'est pas vraiment intéressant de le signaler, car il n'est pas dû à la relation entre vos prédicteurs et le résultat, mais vraiment à la relation entre les prédicteurs.
Ce que j'ai vu suggéré pour résoudre ce problème est la résidualisation. Tout d'abord, vous ajustez un modèle pour
IV2 ~ IV1
, puis prenez les résidus de ce modèle commerIV2
. Si toutes vos variables sont corrélées, vous devriez vraiment toutes les résidualiser. Vous pouvez choisir de faire comme çaMaintenant, ajustez le modèle final avec
Maintenant, le coefficient de
rIV2
représente l'effet indépendant deIV2
étant donné sa corrélation avecIV1
. J'ai entendu dire que vous n'obtiendrez pas le même résultat si vous résidualisez dans un ordre différent, et que le choix de l'ordre de résidualisation est vraiment une question de jugement dans votre recherche.la source
O
et que vos prédicteurs soientIncome
etFather's Income
. Le fait quiIncome
est corrélé avecFather's Income
est intrinsèquement intéressant, mais ce fait serait vrai quelle que soit la valeur deO
. Autrement dit, vous pouvez établir queO
les prédicteurs sont tous colinéaires sans jamais collecter vos données de résultat, ni même savoir quel est le résultat! Ces faits ne devraient pas devenir particulièrement intéressants une fois que vous savez queO
c'est vraiment le casEducation
.Voir Paradoxe de Simpson . En bref, l'effet principal observé peut s'inverser lorsqu'une interaction est ajoutée à un modèle. Sur la page liée, la plupart des exemples sont catégoriques, mais il y a un chiffre en haut de la page que l'on pourrait imaginer en continu. Par exemple, si vous avez un prédicteur catégorique et continu, le prédicteur continu pourrait facilement retourner le signe si celui-ci est ajouté et dans chaque catégorie, le signe est différent de celui du score global.
la source