J'ai une question qui est probablement simple, mais elle me déconcerte pour le moment, alors j'espère que vous pourrez m'aider.
J'ai un modèle de régression des moindres carrés, avec une variable indépendante et une variable dépendante. La relation n'est pas significative. Maintenant, j'ajoute une deuxième variable indépendante. Maintenant, la relation entre la première variable indépendante et la variable dépendante devient significative.
Comment cela marche-t-il? Cela montre probablement un problème avec ma compréhension, mais pour moi, mais je ne vois pas en quoi ajouter cette seconde variable indépendante peut rendre la première significative.
Réponses:
Bien que la colinéarité (des variables prédictives) soit une explication possible, j'aimerais suggérer que ce n'est pas une explication éclairante, car nous savons que la colinéarité est liée à une "information commune" parmi les prédicteurs. Il n'y a donc rien de mystérieux ou de contre-intuitif. effet de l'introduction d'un deuxième prédicteur corrélé dans le modèle.
Considérons ensuite le cas de deux prédicteurs véritablement orthogonaux : il n’ya absolument aucune colinéarité entre eux. Un changement de signification remarquable peut encore se produire.
Désignez les variables prédictives et X 2 et laissez Y nommer le prédictant. La régression de Y contre X 1 ne sera pas significative si la variation de Y autour de sa moyenne n'est pas sensiblement réduite lorsque X 1 est utilisé comme variable indépendante. Lorsque cette variation est fortement associée à une seconde variable X 2 , cependant, la situation change. Rappelons que la régression multiple de Y contre X 1 et X 2 équivaut àX1 X2 Y Y X1 Y X1 X2 Y X1 X2
Régresser séparément et X 1 contre X 2 .Y X1 X2
Régressez les résidus résidus X 1 .Y X1
Les résidus de la première étape ont éliminé l'effet de . Lorsque X 2 est étroitement corrélé à Y , cela peut exposer une quantité de variation relativement faible précédemment masquée. Si cette variation est associée à X 1 , on obtient un résultat significatif.X2 X2 Y X1
Tout cela pourrait peut-être être clarifié avec un exemple concret. Pour commencer,ε
R
générons deux variables orthogonales indépendantes avec une erreur aléatoire indépendante :(CetteX1 X2
svd
étape assure que les deux colonnes de la matricex
(représentant et X 2 ) sont orthogonales, éliminant ainsi la colinéarité comme explication possible des résultats ultérieurs.)Ensuite, créez comme une combinaison linéaire des X et de l’erreur. J'ai ajusté les coefficients pour produire le comportement contre-intuitif:Y X
Ceci est une réalisation du modèle avec n = 32 cas.Y~i i DN( 0.05 X1+ 1,00 X2, 0,012) n = 32
Regardez les deux régressions en question. Commencez par régresser contre X 1 uniquement:Y X1
La valeur p élevée de 0,710 montre que est complètement non significatif.X1
Ensuite , régressez contre X 1 et X 2 :Y X1 X2
Soudain, en présence de , X 1 est fortement significatif, comme l'indiquent les valeurs p proches de zéro pour les deux variables.X2 X1
Nous pouvons visualiser ce comportement au moyen d’une matrice de diagramme de dispersion des variables , X 2 et Y ainsi que des résidus utilisés dans la caractérisation en deux étapes de la régression multiple ci-dessus. Puisque X 1 et X 2 sont orthogonaux, les résidus X 1 seront identiques à X 1 et n'ont donc pas besoin d'être redessinés. Nous allons inclure les résidus de Y contre X 2 dans la matrice du diagramme de dispersion, ce qui donne cette figure:X1 X2 Y X1 X2 X1 X1 Y X2
En voici un rendu (avec une petite fioriture):
Cette matrice de graphiques comporte quatre lignes et quatre colonnes, que je décompterai en partant du haut et de gauche à droite.
Remarquer:
Le diagramme de dispersion dans la deuxième ligne et la première colonne confirme l'orthogonalité de ces prédicteurs: la ligne des moindres carrés est horizontale et la corrélation est égale à zéro.( X1, X2)
Le diagramme de dispersion de la troisième ligne et de la première colonne montre la relation légère mais totalement insignifiante rapportée par la première régression de Y contre X 1 . (Le coefficient de corrélation, ρ , n'est que de 0,07 ).( X1, Y) Y X1 ρ 0,07
Le diagramme de dispersion de la troisième ligne et de la deuxième colonne montre la forte relation entre Y et la deuxième variable indépendante. (Le coefficient de corrélation est 0,996 ).( X2, Y) Y 0,996
La quatrième ligne examine les relations entre les résidus de (régressés par rapport à X 2 ) et d’autres variables:Y X2
L'échelle verticale montre que les résidus sont (relativement) assez petits: nous ne pouvions pas les voir facilement dans le diagramme de dispersion de contre X 2 .Y X2
Les résidus sont fortement corrélés à ( ρ = 0,80 ). La régression contre X 2 a démasqué ce comportement précédemment masqué.X1 ρ=0.80 X2
Par construction, il ne reste aucune corrélation entre les résidus et .X2
Il y a peu de corrélation entre et ces résidus ( ρ = 0,09 ). Cela montre que les résidus peuvent se comporter différemment de Y lui-même. C'est ainsi que X 1 peut soudainement se révéler être un contributeur important à la régression.Y ρ=0.09 Y X1
Enfin, il convient de noter que les deux estimations du coefficient (les deux égales à 0,06895 , non loin de la valeur souhaitée de 0,05 ) ne concordent que parce que X 1 et X 2 sont orthogonaux. Sauf dans les expériences conçues, il est rare que l'orthogonalité soit exacte. Un écart par rapport à l'orthogonalité entraîne généralement une modification des estimations de coefficients.X1 0.06895 0.05 X1 X2
la source
Je pense que cette question a déjà été abordée de manière assez détaillée sur ce site, si vous savez où regarder. Je vais donc probablement ajouter un commentaire plus tard avec des liens vers d'autres questions, ou je pourrais l'éditer pour fournir une explication plus complète si je ne trouve aucune réponse.
Il existe deux possibilités fondamentales: premièrement, l’autre IV peut absorber une partie de la variabilité résiduelle et ainsi augmenter la puissance du test statistique de la IV initiale. La deuxième possibilité est que vous ayez une variable de suppression. C'est un sujet très contre-intuitif, mais vous pouvez trouver quelques informations ici *, ici ou cet excellent fil de CV .
* Notez que vous devez lire jusqu'au bas pour accéder à la partie qui explique les variables de suppression, vous pouvez simplement aller directement à cet endroit, mais vous serez mieux servi en lisant le tout.
Edit: comme promis, j’ajoute une explication plus détaillée de mon argument concernant la manière dont l’autre IV peut absorber une partie de la variabilité résiduelle et donc augmenter la puissance du test statistique de la IV initiale. @whuber a ajouté un exemple impressionnant, mais je pensais pouvoir ajouter un exemple complémentaire expliquant le phénomène différemment, ce qui pourrait aider certaines personnes à mieux comprendre le phénomène. De plus, je démontre que la seconde IV ne doit pas être associée plus étroitement (bien que, dans la pratique, ce soit presque toujours ce phénomène).
Les covariables dans un modèle de régression peuvent être testées avec des tests en divisant l'estimation du paramètre par son erreur standard, ou avec des tests F en partitionnant la somme des carrés. Lorsque des SS de type III sont utilisés, ces deux méthodes de test seront équivalentes (pour en savoir plus sur les types de SS et les tests associés, vous pouvez lire ma réponse ici: Comment interpréter les SS de type I ). Pour ceux qui commencent tout juste à se familiariser avec les méthodes de régression, les tests t sont souvent la cible, car ils semblent plus faciles à comprendre. Cependant, je pense qu’il est plus utile de consulter le tableau ANOVA. Rappelons le tableau de base ANOVA pour un modèle de régression simple:t F t
Ici est la moyenne de y , y i est la valeur observée de y pour l' unité (par exemple, un patient) i , y i est la valeur prédite du modèle d'unité i , et N est le nombre total d'unités dans l'étude. Si vous avez un modèle de régression multiple avec deux covariables orthogonales, la table ANOVA peut être construite de la manière suivante:y¯ y yje y je y^je je N
Ici y x 1 i ° x 2 , par exemple, est la valeur prédite pour l' unité i si la valeur observée pour x 1 est la valeur réelle observée, mais sa valeur observée pour x 2 était la moyenne de x 2 . Bien sûr, il est possible que ˉ x 2 soit la valeur observée de x 2y^X1 jeX¯2 je X1 X2 X2 X¯2 X2 pour certaines observations, auquel cas il n'y a aucun ajustement à faire, mais ce ne sera généralement pas le cas. Notez que cette méthode de création de la table ANOVA n'est valide que si toutes les variables sont orthogonales. Il s'agit d'un cas très simplifié créé à des fins de présentation.
Si nous considérons la situation où les mêmes données sont utilisées pour ajuster un modèle à la fois avec et sans , alors les valeurs de y observées et ˉ y seront les mêmes. Ainsi, le total des SS doit être identique dans les deux tableaux ANOVA. De plus, si x 1 et x 2 sont orthogonaux, alors S S x 1 sera identique dans les deux tableaux ANOVA. Alors, comment se fait-il qu'il puisse y avoir des sommes de carrés associées à x 2 dans le tableau? D'où venaient-ils si le total SS et S S x 1X2 y y¯ X1 X2 SSX1 X2 SSX1 sont identiques? La réponse est qu'ils venaient de . Les df x 2 proviennent également de df res . SSres dfX2 dfres
Or, le test de x 1 est le M S x 1 divisé par M S res dans les deux cas. Puisque M S x 1 est identique, la différence de signification de ce test provient du changement de M S res , qui a changé de deux manières: il a commencé avec moins de SS, car certains étaient attribués à x 2 , mais ce sont: divisé par moins de df, certains degrés de liberté étant également attribués à x 2 . Le changement de signification / puissance du test F (et de manière équivalente leF X1 MSX1 MSres MSx1 MSres x2 x2 F -test, dans ce cas) est due à la façon dont ces deux changements se compensent. Si plus SS sont donnés à x 2 ,rapport à la df qui sont donnés à x 2 , le M de res diminueront,provoque la F associée à x 1 pour augmenter et p devenir plus important. t x2 x2 MSres F x1 p
L'effet de ne doit pas nécessairement être supérieur à x 1 pour que cela se produise, mais si ce n'est pas le cas, les décalages dans les valeurs p seront très faibles. La seule façon de basculer entre non-signification et signification est si les valeurs p se trouvent juste un peu des deux côtés de l'alpha. Voici un exemple, codé dans :x2 x1 p p
R
En fait, ne doit pas nécessairement être significatif. Considérer:x2
Celles-ci ne ressemblent certes pas à l'exemple dramatique du billet de @ whuber, mais elles peuvent aider les gens à comprendre ce qui se passe ici.
la source
On a l'impression que la question du PO peut être interprétée de deux manières différentes:
Mathématiquement, comment fonctionne le système OLS, de sorte que l'ajout d'une variable indépendante peut modifier les résultats de manière inattendue?
Comment la modification de mon modèle en ajoutant une variable peut-elle modifier l’effet d’une autre variable indépendante dans le modèle?
Il existe déjà plusieurs bonnes réponses à la question n ° 1. Et la question n ° 2 peut être si évidente pour les experts qu’ils supposent que le PO doit poser la question n ° 1 à la place. Mais je pense que la question n ° 2 mérite une réponse, qui serait quelque chose comme:
Commençons par un exemple. Supposons que vous avez les hauteurs, l’âge, le sexe, etc. d’un certain nombre d’enfants et que vous souhaitez effectuer une régression pour prédire leur taille.
Vous commencez avec un modèle naïf qui utilise le genre comme variable indépendante. Et ce n'est pas statistiquement significatif. (Comment est-ce possible, vous mélangez des enfants de 3 ans et des adolescents.)
Ensuite, vous ajoutez l'âge et soudain, non seulement l'âge est significatif, mais le sexe aussi. Comment cela pourrait-il être?
Bien sûr, dans mon exemple, vous pouvez clairement voir que l’âge est un facteur important dans la taille d’un enfant / adolescent. Probablement le facteur le plus important pour lequel vous disposez de données. Le sexe peut aussi avoir de l'importance, en particulier pour les enfants plus âgés et les adultes, mais le genre seul est un mauvais modèle de la taille d'un enfant.
L'âge plus le sexe est un modèle raisonnable (bien que, bien sûr simplifié) qui convient à la tâche. Si vous ajoutez d'autres données - interaction de l'âge et du sexe, du régime alimentaire, de la taille des parents, etc. - vous pourrez créer un modèle encore meilleur, qui serait bien sûr simplifié par rapport à la multitude de facteurs qui déterminent réellement la taille d'un enfant, mais là encore, tous les modèles sont des versions simplifiées de la réalité. (Une carte du monde à l'échelle 1: 1 n'est pas très utile pour un voyageur.)
Votre modèle d'origine (genre uniquement) est trop simplifié - tellement simplifié qu'il est essentiellement cassé. Mais cela ne signifie pas que le genre n'est pas utile dans un meilleur modèle.
EDIT: ajout de la suggestion de Gung concernant le terme d’interaction âge / sexe.
la source
Ce fil a déjà trois excellentes réponses (+1 à chaque). Ma réponse est un commentaire prolongé et une illustration de l'argument avancé par @gung (qui m'a pris du temps à comprendre):
"Renforcement"
La figure suivante montre les deux possibilités répertoriées par @gung. Considérons seulement la partie bleue au début (c.-à-d. Ignorer toutes les lignes rouges):
Une autre façon de le dire est que le test compare maintenant la longueur de OF à OG, et non à OC comme auparavant; OF est minuscule et "insignifiant" par rapport à OC, mais suffisamment grand pour être "significatif" par rapport à OG.
C’est exactement la situation présentée par @whuber, @gung et @Wayne dans leurs réponses. Je ne sais pas si cet effet a un nom standard dans la littérature sur la régression, je l'appellerai donc "amélioration".
Suppression
Pas si en répression.
la source