Comment l'ajout d'un 2nd IV peut-il rendre le 1er IV significatif?

64

J'ai une question qui est probablement simple, mais elle me déconcerte pour le moment, alors j'espère que vous pourrez m'aider.

J'ai un modèle de régression des moindres carrés, avec une variable indépendante et une variable dépendante. La relation n'est pas significative. Maintenant, j'ajoute une deuxième variable indépendante. Maintenant, la relation entre la première variable indépendante et la variable dépendante devient significative.

Comment cela marche-t-il? Cela montre probablement un problème avec ma compréhension, mais pour moi, mais je ne vois pas en quoi ajouter cette seconde variable indépendante peut rendre la première significative.

EvKohl
la source
4
C'est un sujet très largement discuté sur ce site. Ceci est probablement dû à la colinéarité. Faites une recherche sur "colinéarité" et vous trouverez des dizaines de sujets pertinents. Je suggère de lire certaines des réponses à stats.stackexchange.com/questions/14500/…
Macro
3
les doublons possibles des prédicteurs significatifs deviennent non significatifs dans la régression logistique multiple . Il y a beaucoup de discussions qui sont en réalité une copie de - c'est la plus proche que j'ai pu trouver en moins de deux minutes
Macro
3
C'est en quelque sorte le problème inverse de celui du fil que @macro vient de trouver, mais les raisons sont très similaires.
Peter Flom - Réintégrer Monica
3
@Macro, je pense que vous avez raison de dire qu'il peut s'agir d'un doublon, mais je pense que le problème ici est légèrement différent des 2 questions ci-dessus. Le PO ne fait pas référence à la signification du modèle dans son ensemble, ni aux variables qui deviennent non significatives avec des IV supplémentaires. Je suppose que ce n’est pas une question de multicolinéarité, mais de pouvoir ou éventuellement de suppression.
gung - Réintégrer Monica
3
aussi, @gung, la suppression dans un modèle linéaire ne se produit que lorsqu'il y a colinéarité - la différence concerne l'interprétation, donc "il ne s'agit pas de multicolinéarité, mais probablement de suppression" crée une dichotomie trompeuse
Macro

Réponses:

78

Bien que la colinéarité (des variables prédictives) soit une explication possible, j'aimerais suggérer que ce n'est pas une explication éclairante, car nous savons que la colinéarité est liée à une "information commune" parmi les prédicteurs. Il n'y a donc rien de mystérieux ou de contre-intuitif. effet de l'introduction d'un deuxième prédicteur corrélé dans le modèle.

Considérons ensuite le cas de deux prédicteurs véritablement orthogonaux : il n’ya absolument aucune colinéarité entre eux. Un changement de signification remarquable peut encore se produire.

Désignez les variables prédictives et X 2 et laissez Y nommer le prédictant. La régression de Y contre X 1 ne sera pas significative si la variation de Y autour de sa moyenne n'est pas sensiblement réduite lorsque X 1 est utilisé comme variable indépendante. Lorsque cette variation est fortement associée à une seconde variable X 2 , cependant, la situation change. Rappelons que la régression multiple de Y contre X 1 et X 2 équivaut àX1X2YYX1YX1X2YX1X2

  1. Régresser séparément et X 1 contre X 2 .YX1X2

  2. Régressez les résidus résidus X 1 .YX1

Les résidus de la première étape ont éliminé l'effet de . Lorsque X 2 est étroitement corrélé à Y , cela peut exposer une quantité de variation relativement faible précédemment masquée. Si cette variation est associée à X 1 , on obtient un résultat significatif.X2X2YX1


Tout cela pourrait peut-être être clarifié avec un exemple concret. Pour commencer, Rgénérons deux variables orthogonales indépendantes avec une erreur aléatoire indépendante :ε

n <- 32
set.seed(182)
u <-matrix(rnorm(2*n), ncol=2)
u0 <- cbind(u[,1] - mean(u[,1]), u[,2] - mean(u[,2]))
x <- svd(u0)$u
eps <- rnorm(n)

(Cette svdétape assure que les deux colonnes de la matrice x(représentant et X 2 ) sont orthogonales, éliminant ainsi la colinéarité comme explication possible des résultats ultérieurs.)X1X2

Ensuite, créez comme une combinaison linéaire des X et de l’erreur. J'ai ajusté les coefficients pour produire le comportement contre-intuitif:YX

y <-  x %*% c(0.05, 1) + eps * 0.01

Ceci est une réalisation du modèle avec n = 32 cas.YiidN(0.05X1+1.00X2,0.012)n=32

Regardez les deux régressions en question. Commencez par régresser contre X 1 uniquement:YX1

> summary(lm(y ~ x[,1]))
...
             Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.002576   0.032423  -0.079    0.937
x[, 1]       0.068950   0.183410   0.376    0.710

La valeur p élevée de 0,710 montre que est complètement non significatif.X1

Ensuite , régressez contre X 1 et X 2 :YX1X2

> summary(lm(y ~ x))
...
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.002576   0.001678  -1.535    0.136    
x1           0.068950   0.009490   7.265 5.32e-08 ***
x2           1.003276   0.009490 105.718  < 2e-16 ***

Soudain, en présence de , X 1 est fortement significatif, comme l'indiquent les valeurs p proches de zéro pour les deux variables.X2X1

Nous pouvons visualiser ce comportement au moyen d’une matrice de diagramme de dispersion des variables , X 2 et Y ainsi que des résidus utilisés dans la caractérisation en deux étapes de la régression multiple ci-dessus. Puisque X 1 et X 2 sont orthogonaux, les résidus X 1 seront identiques à X 1 et n'ont donc pas besoin d'être redessinés. Nous allons inclure les résidus de Y contre X 2 dans la matrice du diagramme de dispersion, ce qui donne cette figure:X1X2YX1X2X1X1YX2

lmy <- lm(y ~ x[,2])
d <- data.frame(X1=x[,1], X2=x[,2], Y=y, RY=residuals(lmy))
plot(d)

En voici un rendu (avec une petite fioriture):

SPM

Cette matrice de graphiques comporte quatre lignes et quatre colonnes, que je décompterai en partant du haut et de gauche à droite.

Remarquer:

  • Le diagramme de dispersion dans la deuxième ligne et la première colonne confirme l'orthogonalité de ces prédicteurs: la ligne des moindres carrés est horizontale et la corrélation est égale à zéro.(X1,X2)

  • Le diagramme de dispersion de la troisième ligne et de la première colonne montre la relation légère mais totalement insignifiante rapportée par la première régression de Y contre X 1 . (Le coefficient de corrélation, ρ , n'est que de 0,07 ).(X1,Y)YX1ρ0,07

  • Le diagramme de dispersion de la troisième ligne et de la deuxième colonne montre la forte relation entre Y et la deuxième variable indépendante. (Le coefficient de corrélation est 0,996 ).(X2,Y)Y0,996

  • La quatrième ligne examine les relations entre les résidus de (régressés par rapport à X 2 ) et d’autres variables:YX2

    • L'échelle verticale montre que les résidus sont (relativement) assez petits: nous ne pouvions pas les voir facilement dans le diagramme de dispersion de contre X 2 .YX2

    • Les résidus sont fortement corrélés à ( ρ = 0,80 ). La régression contre X 2 a démasqué ce comportement précédemment masqué.X1ρ=0.80X2

    • Par construction, il ne reste aucune corrélation entre les résidus et .X2

    • Il y a peu de corrélation entre et ces résidus ( ρ = 0,09 ). Cela montre que les résidus peuvent se comporter différemment de Y lui-même. C'est ainsi que X 1 peut soudainement se révéler être un contributeur important à la régression.Yρ=0.09YX1

Enfin, il convient de noter que les deux estimations du coefficient (les deux égales à 0,06895 , non loin de la valeur souhaitée de 0,05 ) ne concordent que parce que X 1 et X 2 sont orthogonaux. Sauf dans les expériences conçues, il est rare que l'orthogonalité soit exacte. Un écart par rapport à l'orthogonalité entraîne généralement une modification des estimations de coefficients.X10.068950.05X1X2

whuber
la source
Donc, je comprends que explique la variabilité que X 2 ne fait pas. Est-ce que cela nécessite que X 2 soit (plus) significatif que X 1 ? Ou peut- on rendre X 1 significatif sans signification de X 2 ? X1X2X2X1X1X2
Ronald
@ Ronald, je crois que les réponses à vos questions sont non et oui, respectivement. Vous pouvez le savoir en modifiant l'exemple de cette réponse: modifiez les coefficients (0.05 et 0.01) dans le modèle et le nombre d'observations ( ) pour voir ce qui se passe. n=32
whuber
23

Je pense que cette question a déjà été abordée de manière assez détaillée sur ce site, si vous savez où regarder. Je vais donc probablement ajouter un commentaire plus tard avec des liens vers d'autres questions, ou je pourrais l'éditer pour fournir une explication plus complète si je ne trouve aucune réponse.

Il existe deux possibilités fondamentales: premièrement, l’autre IV peut absorber une partie de la variabilité résiduelle et ainsi augmenter la puissance du test statistique de la IV initiale. La deuxième possibilité est que vous ayez une variable de suppression. C'est un sujet très contre-intuitif, mais vous pouvez trouver quelques informations ici *, ici ou cet excellent fil de CV .

* Notez que vous devez lire jusqu'au bas pour accéder à la partie qui explique les variables de suppression, vous pouvez simplement aller directement à cet endroit, mais vous serez mieux servi en lisant le tout.


Edit: comme promis, j’ajoute une explication plus détaillée de mon argument concernant la manière dont l’autre IV peut absorber une partie de la variabilité résiduelle et donc augmenter la puissance du test statistique de la IV initiale. @whuber a ajouté un exemple impressionnant, mais je pensais pouvoir ajouter un exemple complémentaire expliquant le phénomène différemment, ce qui pourrait aider certaines personnes à mieux comprendre le phénomène. De plus, je démontre que la seconde IV ne doit pas être associée plus étroitement (bien que, dans la pratique, ce soit presque toujours ce phénomène).

Les covariables dans un modèle de régression peuvent être testées avec des tests en divisant l'estimation du paramètre par son erreur standard, ou avec des tests F en partitionnant la somme des carrés. Lorsque des SS de type III sont utilisés, ces deux méthodes de test seront équivalentes (pour en savoir plus sur les types de SS et les tests associés, vous pouvez lire ma réponse ici: Comment interpréter les SS de type I ). Pour ceux qui commencent tout juste à se familiariser avec les méthodes de régression, les tests t sont souvent la cible, car ils semblent plus faciles à comprendre. Cependant, je pense qu’il est plus utile de consulter le tableau ANOVA. Rappelons le tableau de base ANOVA pour un modèle de régression simple: tFt

La sourceSSdfMMEFX1Σ(y^je-y¯)21SSX1dfX1MMEX1MMEresRésiduelΣ(yje-y^je)2N-(1+1)SSresdfresTotalΣ(yje-y¯)2N-1

Ici est la moyenne de y , y i est la valeur observée de y pour l' unité (par exemple, un patient) i , y i est la valeur prédite du modèle d'unité i , et N est le nombre total d'unités dans l'étude. Si vous avez un modèle de régression multiple avec deux covariables orthogonales, la table ANOVA peut être construite de la manière suivante: y¯yyjeyjey^jejeN

La sourceSSdfMMEFX1Σ(y^X1jeX¯2-y¯)21SSX1dfX1MMEX1MMEresX2Σ(y^X¯1X2je-y¯)21SSX2dfX2MMEX2MMEresRésiduelΣ(yje-y^je)2N-(2+1)SSresdfresTotalΣ(yje-y¯)2N-1

Ici y x 1 i ° x 2 , par exemple, est la valeur prédite pour l' unité i si la valeur observée pour x 1 est la valeur réelle observée, mais sa valeur observée pour x 2 était la moyenne de x 2 . Bien sûr, il est possible que ˉ x 2 soit la valeur observée de x 2y^X1jeX¯2jeX1X2X2X¯2 X2pour certaines observations, auquel cas il n'y a aucun ajustement à faire, mais ce ne sera généralement pas le cas. Notez que cette méthode de création de la table ANOVA n'est valide que si toutes les variables sont orthogonales. Il s'agit d'un cas très simplifié créé à des fins de présentation.

Si nous considérons la situation où les mêmes données sont utilisées pour ajuster un modèle à la fois avec et sans , alors les valeurs de y observées et ˉ y seront les mêmes. Ainsi, le total des SS doit être identique dans les deux tableaux ANOVA. De plus, si x 1 et x 2 sont orthogonaux, alors S S x 1 sera identique dans les deux tableaux ANOVA. Alors, comment se fait-il qu'il puisse y avoir des sommes de carrés associées à x 2 dans le tableau? D'où venaient-ils si le total SS et S S x 1X2yy¯X1X2SSX1X2SSX1sont identiques? La réponse est qu'ils venaient de . Les df x 2 proviennent également de df res . SSresdfX2dfres

Or, le test de x 1 est le M S x 1 divisé par M S res dans les deux cas. Puisque M S x 1 est identique, la différence de signification de ce test provient du changement de M S res , qui a changé de deux manières: il a commencé avec moins de SS, car certains étaient attribués à x 2 , mais ce sont: divisé par moins de df, certains degrés de liberté étant également attribués à x 2 . Le changement de signification / puissance du test F (et de manière équivalente leFX1MSX1MSresMSx1MSresx2x2F -test, dans ce cas) est due à la façon dont ces deux changements se compensent. Si plus SS sont donnés à x 2 ,rapport à la df qui sont donnés à x 2 , le M de res diminueront,provoque la F associée à x 1 pour augmenter et p devenir plus important. tx2x2MSresFx1p

L'effet de ne doit pas nécessairement être supérieur à x 1 pour que cela se produise, mais si ce n'est pas le cas, les décalages dans les valeurs p seront très faibles. La seule façon de basculer entre non-signification et signification est si les valeurs p se trouvent juste un peu des deux côtés de l'alpha. Voici un exemple, codé dans : x2x1ppR

x1 = rep(1:3, times=15)
x2 = rep(1:3, each=15)
cor(x1, x2)     # [1] 0
set.seed(11628)
y       = 0 + 0.3*x1 + 0.3*x2 + rnorm(45, mean=0, sd=1)
model1  = lm(y~x1)
model12 = lm(y~x1+x2)

anova(model1)
#  ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  5.314  5.3136  3.9568 0.05307 .
# Residuals 43 57.745  1.3429                  
#  ...
anova(model12)
#  ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  5.314  5.3136  4.2471 0.04555 *
# x2         1  5.198  5.1979  4.1546 0.04785 *
# Residuals 42 52.547  1.2511                  
#  ...

En fait, ne doit pas nécessairement être significatif. Considérer: x2

set.seed(1201)
y       = 0 + 0.3*x1 + 0.3*x2 + rnorm(45, mean=0, sd=1)
anova(model1)
# ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  3.631  3.6310  3.8461 0.05636 .
# ...
anova(model12)
# ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  3.631  3.6310  4.0740 0.04996 *
# x2         1  3.162  3.1620  3.5478 0.06656 .
# ...

Celles-ci ne ressemblent certes pas à l'exemple dramatique du billet de @ whuber, mais elles peuvent aider les gens à comprendre ce qui se passe ici.

gung - Rétablir Monica
la source
1
(+1) pour "Tout d'abord, l'autre IV peut absorber une partie de la variabilité résiduelle et donc augmenter la puissance du test statistique de la IV initiale", ce que @whuber a donné un bel exemple de
Macro
(+1) Au début, vous donnez trois liens. Le premier (externe) est malheureusement cassé (erreur 404). En dehors de cela: vous dites qu'il y a "deux possibilités de base": le second IV ajouté augmente le pouvoir de tester le premier IV (et c'est exactement la situation décrite par Whuber et par Wayne dans leurs réponses) ou il existe une variable supressor. (lequel, d'ailleurs? le premier ou le second?). Ma question: s'agit-il vraiment de deux situations distinctes? Ou est-ce essentiellement la même chose, peut-être vu un peu différemment? Ce serait formidable si vous pouviez développer.
Amibe dit de réintégrer Monica le
@gung, merci pour la réponse. Ttnphns commence par donner un lien vers un article traitant de la suppression et de quelques autres effets connexes. Cet article affirme que "la définition la plus généralement acceptée d’une variable de suppression (Tzelgov et Henik, 1991) [est]" une variable qui augmente la validité prédictive. d'une autre variable (ou d'un ensemble de variables) par son inclusion dans une équation de régression "". Cela ressemble exactement à la question posée par OP ici, c’est pourquoi vous avez confondu avec vous qu’il pouvait y avoir deux raisons différentes .
Amibe dit de réintégrer Monica le
1
@ amoeba, le fait est que vous avez 2 mécanismes différents. C'est-à-dire que vous avez deux DAG sous-jacents différents. La manifestation extérieure peut être similaire, et la puissance supplémentaire peut être plus ou moins importante, mais la raison pour laquelle la 2ème variable aide est différente car la relation de la 2ème variable avec x1 & y est différente. Si ce n'est pas clair, vous devrez peut-être poser une nouvelle question. il est difficile de faire trop de commentaires.
gung - Rétablir Monica
17

On a l'impression que la question du PO peut être interprétée de deux manières différentes:

  1. Mathématiquement, comment fonctionne le système OLS, de sorte que l'ajout d'une variable indépendante peut modifier les résultats de manière inattendue?

  2. Comment la modification de mon modèle en ajoutant une variable peut-elle modifier l’effet d’une autre variable indépendante dans le modèle?

Il existe déjà plusieurs bonnes réponses à la question n ° 1. Et la question n ° 2 peut être si évidente pour les experts qu’ils supposent que le PO doit poser la question n ° 1 à la place. Mais je pense que la question n ° 2 mérite une réponse, qui serait quelque chose comme:

Commençons par un exemple. Supposons que vous avez les hauteurs, l’âge, le sexe, etc. d’un certain nombre d’enfants et que vous souhaitez effectuer une régression pour prédire leur taille.

Vous commencez avec un modèle naïf qui utilise le genre comme variable indépendante. Et ce n'est pas statistiquement significatif. (Comment est-ce possible, vous mélangez des enfants de 3 ans et des adolescents.)

Ensuite, vous ajoutez l'âge et soudain, non seulement l'âge est significatif, mais le sexe aussi. Comment cela pourrait-il être?

Bien sûr, dans mon exemple, vous pouvez clairement voir que l’âge est un facteur important dans la taille d’un enfant / adolescent. Probablement le facteur le plus important pour lequel vous disposez de données. Le sexe peut aussi avoir de l'importance, en particulier pour les enfants plus âgés et les adultes, mais le genre seul est un mauvais modèle de la taille d'un enfant.

L'âge plus le sexe est un modèle raisonnable (bien que, bien sûr simplifié) qui convient à la tâche. Si vous ajoutez d'autres données - interaction de l'âge et du sexe, du régime alimentaire, de la taille des parents, etc. - vous pourrez créer un modèle encore meilleur, qui serait bien sûr simplifié par rapport à la multitude de facteurs qui déterminent réellement la taille d'un enfant, mais là encore, tous les modèles sont des versions simplifiées de la réalité. (Une carte du monde à l'échelle 1: 1 n'est pas très utile pour un voyageur.)

Votre modèle d'origine (genre uniquement) est trop simplifié - tellement simplifié qu'il est essentiellement cassé. Mais cela ne signifie pas que le genre n'est pas utile dans un meilleur modèle.

EDIT: ajout de la suggestion de Gung concernant le terme d’interaction âge / sexe.

Wayne
la source
1
+1, nb, âge et sexe nécessiteront vraisemblablement également un terme d'interaction.
Gay - Rétablir Monica
1
1 C'est un excellent exemple parce qu'il est si simple et intuitive claire et les mêmes ajustements exactement à la situation décrite dans beaucoup plus de détails , mais seulement abstraitement par @whuber dans sa réponse acceptée ici.
amibe dit de réintégrer Monica le
10

Ce fil a déjà trois excellentes réponses (+1 à chaque). Ma réponse est un commentaire prolongé et une illustration de l'argument avancé par @gung (qui m'a pris du temps à comprendre):

Il existe deux possibilités fondamentales: premièrement, l’autre IV peut absorber une partie de la variabilité résiduelle et ainsi augmenter la puissance du test statistique de la IV initiale. La deuxième possibilité est que vous ayez une variable de suppression.

X1x2ynRnyx1x2(avec "la matrice de chapeau" étant simplement un projecteur). Les lecteurs non familiarisés avec cette approche peuvent consulter, par exemple, The Elements of Statistical Learning , Section 3.2, ou de nombreux autres livres.

"Renforcement"

La figure suivante montre les deux possibilités répertoriées par @gung. Considérons seulement la partie bleue au début (c.-à-d. Ignorer toutes les lignes rouges):

Amélioration et suppression

x1x2Xyy^

x2yx1α90yx1x1

x2x1x2x1x2x2yβα90x1

Une autre façon de le dire est que le test compare maintenant la longueur de OF à OG, et non à OC comme auparavant; OF est minuscule et "insignifiant" par rapport à OC, mais suffisamment grand pour être "significatif" par rapport à OG.

C’est exactement la situation présentée par @whuber, @gung et @Wayne dans leurs réponses. Je ne sais pas si cet effet a un nom standard dans la littérature sur la régression, je l'appellerai donc "amélioration".

Suppression

α=90β=90x1

Pas si en répression.

x3x1x2x3Xx1x3x1Xy

x1x1y

l'amibe dit de réintégrer Monica
la source
1
J'ai trouvé que votre réponse était la plus facile à comprendre à l'aide de l'interprétation géométrique. Superbe!
zsljulius
1
α=0yx1yx1cor(x1,y)=1x1yyx1
Qoheleth
α=90