J'ai appris dans ma classe de modèles linéaires que si deux prédicteurs sont corrélés et que les deux sont inclus dans un modèle, un sera insignifiant. Par exemple, supposons que la taille d’une maison et le nombre de chambres à coucher soient corrélés. Lors de la prévision du coût d'une maison à l'aide de ces deux prédicteurs, l'un d'entre eux peut être supprimé, car ils fournissent beaucoup d'informations identiques. Intuitivement, cela a du sens, mais j'ai quelques questions plus techniques:
- Comment cet effet se manifeste-t-il dans les valeurs p des coefficients de régression lorsque l'on n'inclut qu'un seul prédicteur ou que les deux prédicteurs sont inclus dans le modèle?
- Comment la variance des coefficients de régression est-elle affectée par l'inclusion des deux prédicteurs dans le modèle ou par le fait d'en avoir un?
- Comment savoir quel prédicteur le modèle choisira d'être moins significatif?
- Comment l'inclusion d'un seul prédicteur ou des deux prédicteurs modifie-t-elle la valeur / la variance de mon coût prévisionnel?
regression
multiple-regression
p-value
linear-model
multicollinearity
Vivek Subramanian
la source
la source
Réponses:
Le sujet dont vous parlez est la multicolinéarité . Vous voudrez peut-être lire certaines des discussions sur le CV classées sous la balise multicolinéarité . La réponse de @ whuber liée ci-dessus en particulier vaut également votre temps.
L'affirmation selon laquelle "si deux prédicteurs sont corrélés et si les deux sont inclus dans un modèle, un sera insignifiant", n'est pas correcte. S'il existe un effet réel d'une variable, la probabilité que cette variable soit significative dépend de plusieurs facteurs, tels que l'ampleur de l'effet, l'ampleur de la variance d'erreur, la variance de la variable elle-même, la quantité de données vous avez, et le nombre d'autres variables dans le modèle. Que les variables soient corrélées est également pertinent, mais cela ne remplace pas ces faits. Considérez la démonstration simple suivante dans
R
:La corrélation entre les deux variables est la plus faible dans le premier exemple et la plus élevée dans la troisième, mais aucune de ces variables n'est significative dans le premier exemple et les deux le sont dans le dernier exemple. L'ampleur des effets est identique dans les trois cas et les variances des variables et des erreurs doivent être similaires (elles sont stochastiques mais proviennent de populations présentant la même variance). La tendance que nous voyons ici est due principalement à ma manipulation des pour chaque cas.N
Le concept clé à comprendre pour résoudre vos questions est le facteur d'inflation de la variance (FIV). La VIF est la mesure dans laquelle la variance de votre coefficient de régression est supérieure à ce qu'elle aurait été si la variable avait été complètement décorrélée de toutes les autres variables du modèle. Notez que le VIF est un facteur multiplicatif, si la variable en question est décorrélée du VIF = 1. Une compréhension simple du VIF est la suivante: vous pouvez adapter un modèle prédisant une variable (par exemple, ) à partir de toutes les autres variables de votre modèle (par exemple, ) et obtenir un multiple . Le VIF pour serait . Disons que le VIF pour était deX 2 R 2 X 1 1 / ( 1 - R 2 ) X 1 10 X 1 10 × X 1X1 X2 R2 X1 1/(1−R2) X1 10 (souvent considéré comme un seuil de multicolinéarité excessive), la variance de la distribution d'échantillonnage du coefficient de régression pour serait supérieure à ce qu'elle aurait été si avait été complètement décorrélé avec toutes les autres variables du modèle. X1 10× X1
Réfléchissez à ce qui se produirait si vous incluiez les deux variables corrélées par rapport à une seule, mais similaire, mais légèrement plus compliquée que celle présentée ci-dessus. En effet, le fait de ne pas inclure de variable signifie que le modèle utilise moins de degrés de liberté, ce qui modifie la variance résiduelle et tout ce qui en découle (y compris la variance des coefficients de régression). De plus, si la variable non incluse est réellement associée à la réponse, la variance de la réponse due à cette variable sera incluse dans la variance résiduelle, ce qui la rendra plus grande qu'elle ne le serait autrement. Ainsi, plusieurs choses changent simultanément (la variable est corrélée ou non avec une autre variable et la variance résiduelle), et l’effet précis de supprimer / inclure l’autre variable dépendra de la façon dont elles sont échangées.
Armé d'une compréhension du VIF, voici les réponses à vos questions:
la source
C’est plutôt un commentaire, mais je voulais inclure un graphique et du code.
Je pense que l'affirmation "si deux prédicteurs sont corrélés et si les deux sont inclus dans un modèle, un sera insignifiant" est fausse si vous voulez dire "un seul". La signification statistique binaire ne peut pas être utilisée pour la sélection de variables.
Voici mon contre-exemple utilisant une régression du pourcentage de graisse corporelle sur le tour de cuisse, l'épaisseur du pli cutané * et le tour de bras:
Comme vous pouvez le constater dans le tableau de régression, tout n’est pas significatif, bien que les valeurs p varient un peu.
La dernière commande Stata représente graphiquement la région de confiance pour 2 des coefficients de régression (un analogue bidimensionnel des intervalles de confiance connus) avec les estimations ponctuelles (point rouge). L'ellipse de confiance pour l'épaisseur du pli cutané et les coefficients du périmètre de la cuisse est longue, étroite et inclinée, reflétant la colinéarité des régresseurs. Il existe une covariance négative élevée entre les coefficients estimés. L'ellipse recouvre des parties des axes vertical et horizontal, ce qui signifie que nous ne pouvons pas rejeter les hypothèses individuelles selon lesquelles les s sont égales à zéro, bien que nous puissions rejeter la jointure null qu'ils sont tous deux puisque l'ellipse ne couvre pas l'origine. En d'autres termes, la cuisse et les triceps sont pertinents pour la graisse corporelle, mais vous ne pouvez pas déterminer lequel est le coupable.β
Alors, comment savoir quels prédicteurs seraient moins significatifs? La variation dans un régresseur peut être classée en deux types:
Pour estimer les coefficients de chaque régresseur, seul le premier sera utilisé. La variation commune est ignorée puisqu'elle ne peut pas être attribuée, bien qu'elle soit utilisée dans la prédiction et le calcul de . Lorsqu'il y a peu d'informations uniques, la confiance sera faible et les variances de coefficient seront élevées. Plus la multicolinéarité est élevée, plus la variation unique est petite et plus les variances sont grandes.R2
* Le pli cutané correspond à la largeur d'un pli cutané recouvrant le triceps et mesuré à l'aide d'un pied à coulisse.
la source
Comme @whuber l'a noté, il s'agit d'une question complexe. Cependant, la première phrase de votre message est une vaste simplification. Il arrive souvent que deux variables (ou plus) soient corrélées et toutes les deux liées à la variable dépendante. Leur importance ou non dépend à la fois de la taille de l'effet et de la taille de la cellule.
Dans votre exemple, supposons que, pour une taille de maison donnée, les gens préfèrent moins de pièces (du moins à New York, cela n’est pas déraisonnable - cela indiquerait des bâtiments plus anciens, des murs plus solides, etc., et pourrait constituer un marqueur de voisinage). Alors les deux pourraient être importants, dans des directions opposées!
Ou supposons que les deux variables soient la taille de la maison et le quartier - elles seraient sûrement corrélées, les maisons plus grandes dans les meilleurs quartiers - mais elles pourraient tout de même être importantes et seraient sûrement liées au prix de la maison.
De plus, l’utilisation de masques "en corrélation" seulement rend la complexité plus complexe. Les variables peuvent être fortement liées sans être corrélées.
la source