J'ai un modèle de jeu de données Movies et j'ai utilisé la régression:
model <- lm(imdbVotes ~ imdbRating + tomatoRating + tomatoUserReviews+ I(genre1 ** 3.0) +I(genre2 ** 2.0)+I(genre3 ** 1.0), data = movies)
library(ggplot2)
res <- qplot(fitted(model), resid(model))
res+geom_hline(yintercept=0)
Ce qui a donné la sortie:
Maintenant, j'ai essayé de travailler pour la première fois avec quelque chose appelé Plot variable ajouté et j'ai obtenu la sortie suivante:
car::avPlots(model, id.n=2, id.cex=0.7)
Le problème est que j'ai essayé de comprendre le graphique de variable ajouté à l'aide de Google, mais je ne pouvais pas comprendre sa profondeur, en voyant le graphique, j'ai compris que son type de représentation de l'inclinaison était basé sur chacune des variables d'entrée liées à la sortie.
Puis-je obtenir un peu plus de détails sur la façon dont cela justifie la normalisation des données?
regression
data-visualization
multiple-regression
scatterplot
Abhishek Choudhary
la source
la source
avPlots
?Réponses:
Pour l'illustration, je prendrai un modèle de régression moins complexeY=β1+β2X2+β3X3+ϵ où les variables prédictives X2 et X3 peuvent être corrélées. Disons que les pentes β2 et β3 sont toutes les deux positives, nous pouvons donc dire que (i) Y augmente à mesure que X2 augmente, si X3 est maintenu constant, puisque β2 est positif; (ii) Y augmente lorsque X3 augmente, si X2 est maintenu constant, puisque β3 est positif.
Notez qu'il est important d'interpréter plusieurs coefficients de régression en considérant ce qui se passe lorsque les autres variables sont maintenues constantes ("ceteris paribus"). Supposons que je viens de régresserY contre X2 avec un modèle Y=β′1+β′2X2+ϵ′ . Mon estimation du coefficient de pente β′2 , qui mesure l'effet sur Y d'une augmentation d'une unité dans X2 sans tenir X3 constant, peut être différente de mon estimation de β2 à partir de la régression multiple - qui mesure également l'effet sur Y d'une augmentation d' une unité dans X2 , mais il ne fait prise X3 constant. Le problème avec mon estimation β′2^ est qu'elle souffre d' un biais variable omis si X2 et X3 sont corrélés.
Pour comprendre pourquoi, imaginez queX2 et X3 soient corrélés négativement. Maintenant, quand j'augmente X2 d'une unité, je sais que la valeur moyenne de Y devrait augmenter puisque β2>0 . Mais comme X2 augmente, si nous ne tenons pas X3 constante alors X3 tend à diminuer, et que β3>0 cela aura tendance à réduire la valeur moyenne de Y . Ainsi, l'effet global d'une augmentation d'une unité dans X2 apparaîtra plus faible si je permets X3 à varier également, doncβ′2<β2 . Les choses empirent plusX2 etX3 sont corrélés, et plus l'effet deX3 àβ3 - dans un cas vraiment grave, nous pouvons même trouverβ′2<0 même si nous savons que, toutes choses égales par ailleurs,X2 a une influence positive surY !
J'espère que vous pouvez maintenant voir pourquoi dessiner un graphique deY contre X2 serait une mauvaise façon de visualiser la relation entre Y et X2 dans votre modèle. Dans mon exemple, votre œil serait dessiné sur une ligne de meilleur ajustement avec la pente β′2^ qui ne reflète pas le β2^ de votre modèle de régression. Dans le pire des cas, votre modèle peut prédire que Y augmente à mesure que X2 augmente (avec d'autres variables maintenues constantes) et pourtant les points sur le graphique suggèrent que Y diminue à mesure que X2 augmente.
Le problème est que dans le graphique simple deY contre X2 , les autres variables ne sont pas maintenues constantes. Il s'agit de la compréhension cruciale des avantages d'un graphique à variables ajoutées (également appelé graphique de régression partielle) - il utilise le théorème de Frisch-Waugh-Lovell pour «neutraliser» l'effet d'autres prédicteurs. Les axes horizontaux et verticaux sur le graphique sont peut-être plus facilement compris * comme " X2 après la prise en compte des autres prédicteurs" et " Y après la prise en compte des autres prédicteurs". Vous pouvez maintenant regarder la relation entre Y et X2 une fois que tous les autres prédicteurs ont été pris en compte. Ainsi, par exemple, la pente que vous pouvez voir dans chaque graphique reflète désormais les coefficients de régression partielle de votre modèle de régression multiple d'origine.
Une grande partie de la valeur d'un tracé de variable ajoutée vient au stade du diagnostic de régression, d'autant plus que les résidus dans le tracé de variable ajoutée sont précisément les résidus de la régression multiple d'origine. Cela signifie que les valeurs aberrantes et l'hétéroscédasticité peuvent être identifiées de la même manière que lorsque l'on examine le tracé d'un modèle de régression simple plutôt que multiple. Des points d'influence peuvent également être vus - cela est utile dans la régression multiple car certains points d'influence ne sont pas évidents dans les données d'origine avant de prendre en compte les autres variables. Dans mon exemple, une valeurX2 modérément grande peut ne pas sembler déplacée dans le tableau de données, mais si la valeur X3 est également importante malgré X2 et X3 étant négativement corrélé alors la combinaison est rare. "En tenant compte des autres prédicteurs", cettevaleurX2 est anormalement grande et ressortira plus en évidence sur votre graphique de variables ajouté.
la source
Bien sûr, leurs pentes sont les coefficients de régression du modèle d'origine (coefficients de régression partielle, tous les autres prédicteurs étant constants)
la source