Qu'est-ce qu'un graphique variable ajouté (graphique de régression partielle) explique dans une régression multiple?

18

J'ai un modèle de jeu de données Movies et j'ai utilisé la régression:

model <- lm(imdbVotes ~ imdbRating + tomatoRating + tomatoUserReviews+ I(genre1 ** 3.0) +I(genre2 ** 2.0)+I(genre3 ** 1.0), data = movies)
library(ggplot2)
res <- qplot(fitted(model), resid(model))
res+geom_hline(yintercept=0)

Ce qui a donné la sortie:

entrez la description de l'image ici

Maintenant, j'ai essayé de travailler pour la première fois avec quelque chose appelé Plot variable ajouté et j'ai obtenu la sortie suivante:

car::avPlots(model, id.n=2, id.cex=0.7)

Graphique variable ajouté

Le problème est que j'ai essayé de comprendre le graphique de variable ajouté à l'aide de Google, mais je ne pouvais pas comprendre sa profondeur, en voyant le graphique, j'ai compris que son type de représentation de l'inclinaison était basé sur chacune des variables d'entrée liées à la sortie.

Puis-je obtenir un peu plus de détails sur la façon dont cela justifie la normalisation des données?

Abhishek Choudhary
la source
4
@Silverfish a donné une belle réponse à votre question. Sur le petit détail de ce qu'il faut faire avec votre ensemble de données particulier, un modèle linéaire ressemble à une très mauvaise idée. Les votes sont manifestement une variable non négative très asymétrique, donc quelque chose comme un modèle de Poisson est indiqué. Voir par exemple blog.stata.com/tag/poisson-regression Notez qu'un tel modèle ne vous engage pas à l'hypothèse que la distribution marginale de la réponse est exactement plus de Poisson qu'un modèle linéaire standard vous engage à postuler la normalité marginale.
Nick Cox
2
Une façon de voir que le modèle linéaire fonctionne mal est de noter qu'il prédit des valeurs négatives pour une fraction substantielle des cas. Voir la région à gauche de équipée sur le premier tracé résiduel. =0
Nick Cox
Merci Nick Cox, ici j'ai trouvé qu'il y a une nature non négative très asymétrique, je dois considérer le modèle de Poisson, donc y a-t-il un lien qui me donne une idée précise du modèle à utiliser dans quel scénario basé sur l'ensemble de données et j'ai essayé d'utiliser La régression polynomiale pour mon jeu de données, sera-ce un bon choix ici ...
Abhishek Choudhary
1
J'ai déjà donné un lien qui à son tour donne d'autres références. Désolé, mais je ne comprends pas la seconde moitié de votre question concernant le "scénario basé sur l'ensemble de données" et la "régression polynomiale". Je soupçonne que vous devez poser une nouvelle question avec beaucoup plus de détails.
Nick Cox
Quel paquet avez-vous installé pour que R reconnaisse la fonction avPlots?
Isa

Réponses:

36

Pour l'illustration, je prendrai un modèle de régression moins complexe Y=β1+β2X2+β3X3+ϵ où les variables prédictives X2 et X3 peuvent être corrélées. Disons que les pentes β2 et β3 sont toutes les deux positives, nous pouvons donc dire que (i) Y augmente à mesure que X2 augmente, si X3 est maintenu constant, puisque β2 est positif; (ii) Yaugmente lorsque X3 augmente, si X2 est maintenu constant, puisque β3 est positif.

Notez qu'il est important d'interpréter plusieurs coefficients de régression en considérant ce qui se passe lorsque les autres variables sont maintenues constantes ("ceteris paribus"). Supposons que je viens de régresser Y contre X2 avec un modèle Y=β1+β2X2+ϵ . Mon estimation du coefficient de pente β2 , qui mesure l'effet sur Y d'une augmentation d'une unité dans X2 sans tenir X3constant, peut être différente de mon estimation de β2 à partir de la régression multiple - qui mesure également l'effet sur Y d'une augmentation d' une unité dans X2 , mais il ne fait prise X3 constant. Le problème avec mon estimation β2^ est qu'elle souffre d' un biais variable omis si X2 et X3 sont corrélés.

Pour comprendre pourquoi, imaginez que X2 et X3 soient corrélés négativement. Maintenant, quand j'augmente X2 d'une unité, je sais que la valeur moyenne de Y devrait augmenter puisque β2>0 . Mais comme X2 augmente, si nous ne tenons pas X3 constante alors X3 tend à diminuer, et que β3>0 cela aura tendance à réduire la valeur moyenne de Y . Ainsi, l'effet global d'une augmentation d'une unité dans X2 apparaîtra plus faible si je permets X3 à varier également, doncβ2<β2 . Les choses empirent plusX2 etX3 sont corrélés, et plus l'effet deX3 àβ3 - dans un cas vraiment grave, nous pouvons même trouverβ2<0 même si nous savons que, toutes choses égales par ailleurs,X2 a une influence positive surY !

J'espère que vous pouvez maintenant voir pourquoi dessiner un graphique de Y contre X2 serait une mauvaise façon de visualiser la relation entre Y et X2 dans votre modèle. Dans mon exemple, votre œil serait dessiné sur une ligne de meilleur ajustement avec la pente β2^ qui ne reflète pas le β2^ de votre modèle de régression. Dans le pire des cas, votre modèle peut prédire que Y augmente à mesure que X2 augmente (avec d'autres variables maintenues constantes) et pourtant les points sur le graphique suggèrent que Y diminue à mesure que X2 augmente.

Le problème est que dans le graphique simple de Y contre X2 , les autres variables ne sont pas maintenues constantes. Il s'agit de la compréhension cruciale des avantages d'un graphique à variables ajoutées (également appelé graphique de régression partielle) - il utilise le théorème de Frisch-Waugh-Lovell pour «neutraliser» l'effet d'autres prédicteurs. Les axes horizontaux et verticaux sur le graphique sont peut-être plus facilement compris * comme " X2 après la prise en compte des autres prédicteurs" et " Y après la prise en compte des autres prédicteurs". Vous pouvez maintenant regarder la relation entre Y et X2 une fois que tous les autres prédicteurs ont été pris en compte. Ainsi, par exemple, la pente que vous pouvez voir dans chaque graphique reflète désormais les coefficients de régression partielle de votre modèle de régression multiple d'origine.

Une grande partie de la valeur d'un tracé de variable ajoutée vient au stade du diagnostic de régression, d'autant plus que les résidus dans le tracé de variable ajoutée sont précisément les résidus de la régression multiple d'origine. Cela signifie que les valeurs aberrantes et l'hétéroscédasticité peuvent être identifiées de la même manière que lorsque l'on examine le tracé d'un modèle de régression simple plutôt que multiple. Des points d'influence peuvent également être vus - cela est utile dans la régression multiple car certains points d'influence ne sont pas évidents dans les données d'origine avant de prendre en compte les autres variables. Dans mon exemple, une valeur X2 modérément grande peut ne pas sembler déplacée dans le tableau de données, mais si la valeur X3 est également importante malgré X2 et X3 étant négativement corrélé alors la combinaison est rare. "En tenant compte des autres prédicteurs", cettevaleurX2 est anormalement grande et ressortira plus en évidence sur votre graphique de variables ajouté.

Plus techniquementils seraient les résidus deexécutiondeux autres régressions multiples: les résidus de régressantY contre tousfacteurs prédictifs autres queX2 go sur l'axe vertical, tandis que les résidus derégressionX2 contre toutesautres variables vont sur l'axe horizontal. C'est vraiment ce quevous disentles légendes de "Y donné aux autres" et "X2 donné aux autres". Puisque le résidu moyen de ces deux régressions est nul, le point moyen de (X2 étant donné les autres,Yétant donné les autres) sera juste (0, 0), ce qui explique pourquoi la ligne de régression dans le tracé de variable ajoutée passe toujours par l'origine. Mais je trouve souvent que la mention des axes n'est que des résidus d'autres régressions confond les gens (sans surprise peut-être puisque nous parlons maintenant de quatre régressions différentes!), J'ai donc essayé de ne pas m'attarder sur la question. Comprenez-les comme " X2 donné aux autres" et " Y donné aux autres" et tout devrait bien se passer.

Silverfish
la source
Vous ne savez pas comment poser cette question, mais y a-t-il vraiment quelque chose à dire sur les tendances observées dans les parcelles? Par exemple, la qualité de l'ajustement de chaque tendance est-elle liée à l'indépendance de chacun des prédicteurs, ou quelque chose du genre?
naught101
3
Existe-t-il une méthode pour traduire les unités de résidu sur les axes horizontal et vertical en unités des variables sous-jacentes?
Nicholas G
C'est une excellente réponse. Mais y a-t-il une faute de frappe dans votre premier paragraphe (variables prédictives)? Doivent-ils être X2 et X3?
detly
@detly Merci, changé!
Silverfish
Silverfish, connaissez-vous la réponse à la question @NicholasG? Existe-t-il un moyen de rendre les résidus interprétables en termes d'unités de la variable X?
Fourchelangue
-1

y a-t-il quelque chose qui puisse vraiment être dit sur les tendances observées dans les parcelles

Bien sûr, leurs pentes sont les coefficients de régression du modèle d'origine (coefficients de régression partielle, tous les autres prédicteurs étant constants)

anonyme
la source