Qu'est-ce qu'un graphique variable ajouté (graphique de régression partielle) explique dans une régression multiple?

J'ai un modèle de jeu de données Movies et j'ai utilisé la régression:

model <- lm(imdbVotes ~ imdbRating + tomatoRating + tomatoUserReviews+ I(genre1 ** 3.0) +I(genre2 ** 2.0)+I(genre3 ** 1.0), data = movies)
library(ggplot2)
res <- qplot(fitted(model), resid(model))
res+geom_hline(yintercept=0)

Ce qui a donné la sortie:

entrez la description de l'image ici

Maintenant, j'ai essayé de travailler pour la première fois avec quelque chose appelé Plot variable ajouté et j'ai obtenu la sortie suivante:

car::avPlots(model, id.n=2, id.cex=0.7)

Graphique variable ajouté

Le problème est que j'ai essayé de comprendre le graphique de variable ajouté à l'aide de Google, mais je ne pouvais pas comprendre sa profondeur, en voyant le graphique, j'ai compris que son type de représentation de l'inclinaison était basé sur chacune des variables d'entrée liées à la sortie.

Puis-je obtenir un peu plus de détails sur la façon dont cela justifie la normalisation des données?

regression data-visualization multiple-regression scatterplot Abhishek Choudhary
la source

@Silverfish a donné une belle réponse à votre question. Sur le petit détail de ce qu'il faut faire avec votre ensemble de données particulier, un modèle linéaire ressemble à une très mauvaise idée. Les votes sont manifestement une variable non négative très asymétrique, donc quelque chose comme un modèle de Poisson est indiqué. Voir par exemple blog.stata.com/tag/poisson-regression Notez qu'un tel modèle ne vous engage pas à l'hypothèse que la distribution marginale de la réponse est exactement plus de Poisson qu'un modèle linéaire standard vous engage à postuler la normalité marginale.

Nick Cox

Une façon de voir que le modèle linéaire fonctionne mal est de noter qu'il prédit des valeurs négatives pour une fraction substantielle des cas. Voir la région à gauche de équipée

sur le premier tracé résiduel.

= 0

$= 0$

Nick Cox

Merci Nick Cox, ici j'ai trouvé qu'il y a une nature non négative très asymétrique, je dois considérer le modèle de Poisson, donc y a-t-il un lien qui me donne une idée précise du modèle à utiliser dans quel scénario basé sur l'ensemble de données et j'ai essayé d'utiliser La régression polynomiale pour mon jeu de données, sera-ce un bon choix ici ...

Abhishek Choudhary

J'ai déjà donné un lien qui à son tour donne d'autres références. Désolé, mais je ne comprends pas la seconde moitié de votre question concernant le "scénario basé sur l'ensemble de données" et la "régression polynomiale". Je soupçonne que vous devez poser une nouvelle question avec beaucoup plus de détails.

Nick Cox

Quel paquet avez-vous installé pour que R reconnaisse la fonction avPlots?

Isa

Pour l'illustration, je prendrai un modèle de régression moins complexe $Y = \beta_1 + \beta_2 X_2 + \beta_3 X_3 + \epsilon$ où les variables prédictives $X_2$ et $X_3$ peuvent être corrélées. Disons que les pentes $\beta_2$ et $\beta_3$ sont toutes les deux positives, nous pouvons donc dire que (i) $Y$ augmente à mesure que $X_2$ augmente, si $X_3$ est maintenu constant, puisque $\beta_2$ est positif; (ii) $Y$ augmente lorsque $X_3$ augmente, si $X_2$ est maintenu constant, puisque $\beta_3$ est positif.

Notez qu'il est important d'interpréter plusieurs coefficients de régression en considérant ce qui se passe lorsque les autres variables sont maintenues constantes ("ceteris paribus"). Supposons que je viens de régresser $Y$ contre $X_2$ avec un modèle $Y = \beta_1' + \beta_2' X_2 + \epsilon'$ . Mon estimation du coefficient de pente $\beta_2'$ , qui mesure l'effet sur $Y$ d'une augmentation d'une unité dans $X_2$ sans tenir $X_3$ constant, peut être différente de mon estimation de $\beta_2$ à partir de la régression multiple - qui mesure également l'effet sur $Y$ d'une augmentation d' une unité dans $X_2$ , mais il ne fait prise $X_3$ constant. Le problème avec mon estimation $\hat{\beta_2'}$ est qu'elle souffre d' un biais variable omis si $X_2$ et $X_3$ sont corrélés.

Pour comprendre pourquoi, imaginez que $X_2$ et $X_3$ soient corrélés négativement. Maintenant, quand j'augmente $X_2$ d'une unité, je sais que la valeur moyenne de $Y$ devrait augmenter puisque $\beta_2 > 0$ . Mais comme $X_2$ augmente, si nous ne tenons pas $X_3$ constante alors $X_3$ tend à diminuer, et que $\beta_3 > 0$ cela aura tendance à réduire la valeur moyenne de $Y$ . Ainsi, l'effet global d'une augmentation d'une unité dans $X_2$ apparaîtra plus faible si je permets $X_3$ à varier également, donc $\beta_2' < \beta_2$ . Les choses empirent plus $X_2$ et $X_3$ sont corrélés, et plus l'effet de $X_3$ à $\beta_3$ - dans un cas vraiment grave, nous pouvons même trouver $\beta_2' < 0$ même si nous savons que, toutes choses égales par ailleurs, $X_2$ a une influence positive sur $Y$ !

J'espère que vous pouvez maintenant voir pourquoi dessiner un graphique de $Y$ contre $X_2$ serait une mauvaise façon de visualiser la relation entre $Y$ et $X_2$ dans votre modèle. Dans mon exemple, votre œil serait dessiné sur une ligne de meilleur ajustement avec la pente $\hat{\beta_2'}$ qui ne reflète pas le $\hat{\beta_2}$ de votre modèle de régression. Dans le pire des cas, votre modèle peut prédire que $Y$ augmente à mesure que $X_2$ augmente (avec d'autres variables maintenues constantes) et pourtant les points sur le graphique suggèrent que $Y$ diminue à mesure que $X_2$ augmente.

Le problème est que dans le graphique simple de $Y$ contre $X_2$ , les autres variables ne sont pas maintenues constantes. Il s'agit de la compréhension cruciale des avantages d'un graphique à variables ajoutées (également appelé graphique de régression partielle) - il utilise le théorème de Frisch-Waugh-Lovell pour «neutraliser» l'effet d'autres prédicteurs. Les axes horizontaux et verticaux sur le graphique sont peut-être plus facilement compris * comme " $X_2$ après la prise en compte des autres prédicteurs" et " $Y$ après la prise en compte des autres prédicteurs". Vous pouvez maintenant regarder la relation entre $Y$ et $X_2$ une fois que tous les autres prédicteurs ont été pris en compte. Ainsi, par exemple, la pente que vous pouvez voir dans chaque graphique reflète désormais les coefficients de régression partielle de votre modèle de régression multiple d'origine.

Une grande partie de la valeur d'un tracé de variable ajoutée vient au stade du diagnostic de régression, d'autant plus que les résidus dans le tracé de variable ajoutée sont précisément les résidus de la régression multiple d'origine. Cela signifie que les valeurs aberrantes et l'hétéroscédasticité peuvent être identifiées de la même manière que lorsque l'on examine le tracé d'un modèle de régression simple plutôt que multiple. Des points d'influence peuvent également être vus - cela est utile dans la régression multiple car certains points d'influence ne sont pas évidents dans les données d'origine avant de prendre en compte les autres variables. Dans mon exemple, une valeur $X_2$ modérément grande peut ne pas sembler déplacée dans le tableau de données, mais si la valeur $X_3$ est également importante malgré $X_2$ et $X_3$ étant négativement corrélé alors la combinaison est rare. "En tenant compte des autres prédicteurs", cettevaleur $X_2$ est anormalement grande et ressortira plus en évidence sur votre graphique de variables ajouté.

$*$ Plus techniquementils seraient les résidus deexécutiondeux autres régressions multiples: les résidus de régressant $Y$ contre tousfacteurs prédictifs autres que $X_2$ go sur l'axe vertical, tandis que les résidus derégression $X_2$ contre toutesautres variables vont sur l'axe horizontal. C'est vraiment ce quevous disentles légendes de " $Y$ donné aux autres" et " $X_2$ donné aux autres". Puisque le résidu moyen de ces deux régressions est nul, le point moyen de ( $X_2$ étant donné les autres, $Y$ étant donné les autres) sera juste (0, 0), ce qui explique pourquoi la ligne de régression dans le tracé de variable ajoutée passe toujours par l'origine. Mais je trouve souvent que la mention des axes n'est que des résidus d'autres régressions confond les gens (sans surprise peut-être puisque nous parlons maintenant de quatre régressions différentes!), J'ai donc essayé de ne pas m'attarder sur la question. Comprenez-les comme " $X_2$ donné aux autres" et " $Y$ donné aux autres" et tout devrait bien se passer.

Silverfish
la source

Vous ne savez pas comment poser cette question, mais y a-t-il vraiment quelque chose à dire sur les tendances observées dans les parcelles? Par exemple, la qualité de l'ajustement de chaque tendance est-elle liée à l'indépendance de chacun des prédicteurs, ou quelque chose du genre?

naught101

Existe-t-il une méthode pour traduire les unités de résidu sur les axes horizontal et vertical en unités des variables sous-jacentes?

Nicholas G

C'est une excellente réponse. Mais y a-t-il une faute de frappe dans votre premier paragraphe (variables prédictives)? Doivent-ils être X2 et X3?

detly

@detly Merci, changé!

Silverfish

Silverfish, connaissez-vous la réponse à la question @NicholasG? Existe-t-il un moyen de rendre les résidus interprétables en termes d'unités de la variable X?

Fourchelangue

Qu'est-ce qu'un graphique variable ajouté (graphique de régression partielle) explique dans une régression multiple?

Réponses: