Je me demande quelle est la relation exacte entre le partiel et les coefficients dans un modèle linéaire et si je ne devrais utiliser qu'un seul ou les deux pour illustrer l'importance et l'influence des facteurs.
Pour autant que je sache, avec summary
j'obtiens des estimations des coefficients, et avec anova
la somme des carrés pour chaque facteur - la proportion de la somme des carrés d'un facteur divisée par la somme de la somme des carrés plus les résidus est partielle (le code suivant est dedans ).R
library(car)
mod<-lm(education~income+young+urban,data=Anscombe)
summary(mod)
Call:
lm(formula = education ~ income + young + urban, data = Anscombe)
Residuals:
Min 1Q Median 3Q Max
-60.240 -15.738 -1.156 15.883 51.380
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -2.868e+02 6.492e+01 -4.418 5.82e-05 ***
income 8.065e-02 9.299e-03 8.674 2.56e-11 ***
young 8.173e-01 1.598e-01 5.115 5.69e-06 ***
urban -1.058e-01 3.428e-02 -3.086 0.00339 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 26.69 on 47 degrees of freedom
Multiple R-squared: 0.6896, Adjusted R-squared: 0.6698
F-statistic: 34.81 on 3 and 47 DF, p-value: 5.337e-12
anova(mod)
Analysis of Variance Table
Response: education
Df Sum Sq Mean Sq F value Pr(>F)
income 1 48087 48087 67.4869 1.219e-10 ***
young 1 19537 19537 27.4192 3.767e-06 ***
urban 1 6787 6787 9.5255 0.003393 **
Residuals 47 33489 713
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
La taille des coefficients pour «jeunes» (0,8) et «urbains» (-0,1, environ 1/8 des premiers, sans tenir compte de «-») ne correspond pas à la variance expliquée («jeunes» ~ 19500 et «urbaine» ~ 6790, soit environ 1/3).
J'ai donc pensé que j'aurais besoin de mettre à l'échelle mes données parce que je supposais que si la plage d'un facteur est beaucoup plus large que la plage d'un autre facteur, leurs coefficients seraient difficiles à comparer:
Anscombe.sc<-data.frame(scale(Anscombe))
mod<-lm(education~income+young+urban,data=Anscombe.sc)
summary(mod)
Call:
lm(formula = education ~ income + young + urban, data = Anscombe.sc)
Residuals:
Min 1Q Median 3Q Max
-1.29675 -0.33879 -0.02489 0.34191 1.10602
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.084e-16 8.046e-02 0.000 1.00000
income 9.723e-01 1.121e-01 8.674 2.56e-11 ***
young 4.216e-01 8.242e-02 5.115 5.69e-06 ***
urban -3.447e-01 1.117e-01 -3.086 0.00339 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.5746 on 47 degrees of freedom
Multiple R-squared: 0.6896, Adjusted R-squared: 0.6698
F-statistic: 34.81 on 3 and 47 DF, p-value: 5.337e-12
anova(mod)
Analysis of Variance Table
Response: education
Df Sum Sq Mean Sq F value Pr(>F)
income 1 22.2830 22.2830 67.4869 1.219e-10 ***
young 1 9.0533 9.0533 27.4192 3.767e-06 ***
urban 1 3.1451 3.1451 9.5255 0.003393 **
Residuals 47 15.5186 0.3302
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Mais cela ne fait pas vraiment de différence, le partiel et la taille des coefficients (ce sont maintenant des coefficients standardisés ) ne correspondent toujours pas:
22.3/(22.3+9.1+3.1+15.5)
# income: partial R2 0.446, Coeff 0.97
9.1/(22.3+9.1+3.1+15.5)
# young: partial R2 0.182, Coeff 0.42
3.1/(22.3+9.1+3.1+15.5)
# urban: partial R2 0.062, Coeff -0.34
Est-il donc juste de dire que «jeune» explique trois fois plus de variance que «urbain» parce que partiel pour «jeune» est trois fois supérieur à «urbain»? Pourquoi le coefficient de «jeune» n'est-il pas alors trois fois supérieur à celui de «urbain» (en ignorant le signe)?
Je suppose que la réponse à cette question me donnera également la réponse à ma question initiale: Dois-je utiliser des partiels ou des coefficients pour illustrer l'importance relative des facteurs? (Ignorant la direction de l'influence - signe - pour le moment.)
Éditer:
L'éta-carré partiel semble être un autre nom pour ce que j'ai appelé partiel . etasq {heplots} est une fonction utile qui produit des résultats similaires:
etasq(mod)
Partial eta^2
income 0.6154918
young 0.3576083
urban 0.1685162
Residuals NA
Réponses:
En bref , je n'utiliserais pas à la fois le partiel et les coefficients standardisés dans la même analyse, car ils ne sont pas indépendants. Je dirais qu'il est généralement probablement plus intuitif de comparer les relations à l'aide des coefficients normalisés, car ils se rapportent facilement à la définition du modèle (c.-à-d. Y = β X ). La partie R 2 , à son tour, est essentiellement la proportion de la variance commune unique entre le prédicteur et la variable dépendante (dv) (donc pour la première prédiction est le carré de la corrélation partielle r x 1 y . X 2 . . . X nR2 Y=βX R2 rx1y.x2...xn ). De plus, pour un ajustement avec une très petite erreur, tous les partiels des coefficients ont tendance à 1, ils ne sont donc pas utiles pour identifier l'importance relative des prédicteurs.R2
Les définitions de la taille de l'effet
partiel - La proportion de variation résiduelle expliquée par l'ajout du prédicteur au modèle contraint (le modèle complet sans le prédicteur). Pareil que:R2
- Différence de R 2 entre le modèle contraint et le modèle complet. Égal à:ΔR2 R2
Tous ces éléments sont étroitement liés, mais ils diffèrent quant à la façon dont ils gèrent la structure de corrélation entre les variables. Pour mieux comprendre cette différence, supposons que nous avons 3 variables standardisées (moyenne = 0, sd = 1) dont les corrélations sont r x y , r x z , r y z . Nous prendrons x comme variable dépendante et y et zx,y,z rxy,rxz,ryz x y z comme prédicteurs. Nous allons exprimer tous les coefficients de taille d'effet en termes de corrélations afin que nous puissions voir explicitement comment la structure de corrélation est gérée par chacun. D'abord, nous énumérerons les coefficients dans le modèle de régression estimés en utilisant OLS. La formule des coefficients:
β y = r x y - r y z r z xx=βyY+βzZ
La racine carrée duR2partielpour les prédicteurs sera égale à:
le est donné par:Δ R2----√
anova
lm
Anova
car
anova(mod)
Anova(mod, type = 2)
options(contrasts = c("contr.sum","contr.poly"))
Anova(mod,type=3)
etasq()
Crédit
La formule de la corrélation partielle est donnée dans la réponse ttnphns ici: Régression multiple ou coefficient de corrélation partielle? Et les relations entre les deux
la source
Comme déjà expliqué dans plusieurs autres réponses et commentaires, cette question était basée sur au moins trois confusions:
anova()
Anova()
car
Une fois ces confusions clarifiées, la question demeure de savoir quelles sont les mesures les plus appropriées de l'ampleur ou de l'importance de l'effet prédictif.
Dans R, il existe un package
relaimpo
qui fournit plusieurs mesures d'importance relative.En utilisant le même
Anscombe
ensemble de données que dans votre question, cela donne les métriques suivantes:Certaines de ces mesures ont déjà été discutées:
betasq
sont des coefficients standardisés au carré, les mêmes valeurs que celles obtenues aveclm()
.first
anova()
last
anova()
Il y a quatre autres mesures
relaimpo
- et une autre (cinquième) est disponible si le packagerelaimpo
est installé manuellement: la version CRAN exclut cette mesure en raison d'un conflit potentiel avec son auteur qui, aussi fou que cela puisse paraître, possède un brevet américain sur sa méthode . J'exécute R en ligne et n'y ai pas accès, donc si quelqu'un peut installer manuellementrelaimpo
, veuillez ajouter cette mesure supplémentaire à ma sortie ci-dessus pour être complet.Deux mesures
pratt
peuvent être négatives (mauvaises) etgenizi
c'est assez obscur.Deux approches intéressantes sont
lmg
etcar
.Le second est introduit dans (Zuber & Strimmer, 2011) et possède de nombreuses propriétés théoriques attrayantes; il s'agit de coefficients standardisés au carré après que les prédicteurs ont d'abord été standardisés puis blanchis avec une transformation ZCA / Mahalanobis (c'est-à-dire blanchis tout en minimisant l'erreur de reconstruction).
lmg
car
Bibliographie:
Références sur l'importance relative sur le site d' Ulrike Grömping - dont elle est l'auteur
relaimpo
.Grömping, U. (2006). Importance relative de la régression linéaire dans R: The Package relaimpo . Journal of Statistical Software 17, numéro 1.
Grömping, U. (2007). Estimateurs de l'importance relative dans la régression linéaire basée sur la décomposition de la variance . The American Statistician 61, 139-147.
Zuber, V. et Strimmer, K. (2010). Régression haute dimension et sélection de variables à l'aide des scores CAR . Applications statistiques en génétique et biologie moléculaire 10.1 (2011): 1-27.
Grömping, U. (2015). Importance variable dans les modèles de régression . Wiley Interdisciplinary Reviews: Computational Statistics, 7 (2), 137-152. (derrière le mur de paye)
la source
Tu as écrit:
Il est important de ne pas confondre deux choses ici. Il y a d'abord la question de la spécification du modèle. L'algorithme lm suppose que les hypothèses OLS sont remplies. Cela signifie entre autres que pour les estimations non biaisées, AUCUNE variable significative ne peut être manquante dans le modèle (sauf lorsqu'elle n'est pas corrélée à tous les autres régresseurs, rare).
Ainsi, dans la recherche d'un modèle, l'influence supplémentaire sur R² ou R² ajusté est bien sûr intéressante. On pourrait penser qu'il convient d'ajouter des régresseurs jusqu'à ce que le R² ajusté cesse de s'améliorer, par exemple. Il existe des problèmes intéressants avec les procédures de régression pas à pas comme celle-ci, mais ce n'est pas le sujet. En tout cas, je suppose qu'il y avait une raison pour laquelle vous avez choisi votre modèle.
CEPENDANT: cette influence supplémentaire sur le R² n'est pas identique à l'influence réelle ou totale du régresseur sur la variable indépendante, précisément à cause de la multicollinarité: si vous supprimez le régresseur, une partie de son influence sera désormais attribuée aux autres régresseurs qui y sont corrélés. Alors maintenant, la véritable influence n'est pas correctement montrée.
Et il y a un autre problème: les estimations ne sont valables que pour le modèle complet avec tous les autres régresseurs présents. Soit ce modèle n'est pas encore correct et donc la discussion sur l'influence n'a pas de sens - soit il est correct et alors vous ne pouvez pas éliminer un régresseur et continuer à utiliser les méthodes OLS avec succès.
Alors: votre modèle et l'utilisation d'OLS sont-ils appropriés? Si c'est le cas, les estimations répondent à votre question - elles sont votre meilleure estimation littérale de l'influence des variables sur la régression et la variable dépendante.
Sinon, votre premier travail consiste à trouver un modèle correct. Pour cela, l'utilisation de R² partiel peut être un moyen. Une recherche sur la spécification du modèle ou la régression pas à pas produira de nombreuses approches intéressantes dans ce forum. Ce qui fonctionne dépendra de vos données.
la source
relaimpo
est de fournir des alternatives au R ^ 2 partiel, exactement pour la raison que l'IMA donne!relaimpo
package, j'ai réalisé qu'il existe tout un monde d'approches différentes pour quantifier l'importance relative des prédicteurs dans la régression linéaire. Je suis actuellement en train de feuilleter des articles qui y sont liés ( cette préimpression de 2010 semble assez bonne jusqu'à présent), et c'est un bordel! Je ne savais pas que ce problème est si compliqué, quand j'ai offert ma prime. Il ne semble pas avoir été correctement discuté sur CV. Est-ce un sujet obscur? Si oui, pourquoi?En ce qui concerne la différence entre le coefficient de régression linéaire et la corrélation partielle, vous pouvez lire ceci , par exemple.
Cependant, la confusion exprimée dans la question semble être d'une autre nature. Il semble s'agir du type par défaut de sommes de carrés utilisées par tel ou tel progiciel statistique (sujet, discuté à plusieurs reprises sur notre site). La régression linéaire utilise ce qu'on appelle dans le calcul ANOVA Type III SS. Dans de nombreux programmes ANOVA, c'est également l'option par défaut. En
R
fonctionanova
, il me semble (je ne suis pas un utilisateur R, donc je le suppose) que le calcul par défaut est de type I SS (un "SS séquentiel" qui dépend de l'ordre dans lequel les prédicteurs sont spécifiés dans le modèle). Ainsi, l'écart que vous avez observé et qui n'a pas disparu lorsque vous avez standardisé ("mis à l'échelle") vos variables est dû au fait que vous avez spécifié l'ANOVA avec l'option Type I par défaut.Voici les résultats obtenus dans SPSS avec vos données:
Vous pouvez choisir dans ces impressions que les paramètres (coefficients de régression) sont les mêmes quel que soit le type de calcul SS. Vous pouvez également remarquer que Eta partiel au carré [qui est SSeffet / (SSeffet + SSerror) et = partiel R au carré dans notre cas parce que les prédicteurs sont des covariables numériques] est entièrement identique dans le tableau des effets et des coefficients uniquement lorsque le type SS est III. Lorsque le type SS est I, seul le dernier des 3 prédicteurs, "urbain", conserve la même valeur (0,169); c'est parce que dans la séquence d'entrée des prédicteurs c'est le dernier. Dans le cas de SS de type III, l'ordre d'entrée n'a pas d'importance, comme dans la régression. Soit dit en passant, l'écart est également observé dans les valeurs de p. Bien que vous ne le voyiez pas dans mes tableaux car il n'y a que 3 chiffres décimaux dans la colonne "Sig",
Vous voudrez peut-être en savoir plus sur les différents "types de SS" dans le modèle ANOVA / linéaire. Conceptuellement, les SS de type III ou de "régression" sont fondamentaux et primordiaux. D'autres types de SS (I, II, IV, il en existe encore plus) sont des dispositifs spéciaux pour estimer les effets de manière plus complète et moins inutile que les paramètres de régression ne le permettent dans la situation des prédicteurs corrélés.
Généralement, les tailles des effets et leurs valeurs de p sont plus importantes à déclarer que les paramètres et leurs valeurs de p, à moins que l'objectif de l'étude ne soit de créer un modèle pour l'avenir. Les paramètres vous permettent de prédire, mais «influence» ou «effet» peut être un concept plus large que «force de prédiction linéaire». Pour rendre compte de l'influence ou de l'importance, d'autres coefficients sont possibles en plus de l'Eta partiel au carré. L'un est le coefficient d'abandon: l'importance d'un prédicteur est la somme résiduelle des carrés avec le prédicteur retiré du modèle, normalisé de sorte que les valeurs d'importance pour tous les prédicteurs soient égales à 1.
la source