Comment diviser le r au carré entre les variables prédictives en régression multiple?

16

Je viens de lire un article dans lequel les auteurs ont effectué une régression multiple avec deux prédicteurs. La valeur globale du r au carré était de 0,65. Ils ont fourni un tableau qui divise le r au carré entre les deux prédicteurs. Le tableau ressemblait à ceci:

            rsquared beta    df pvalue
whole model     0.65   NA  2, 9  0.008
predictor 1     0.38 1.01 1, 10  0.002
predictor 2     0.27 0.65 1, 10  0.030

Dans ce modèle, exécuté à l' Raide de l' mtcarsensemble de données, la valeur globale du r au carré est de 0,76.

summary(lm(mpg ~ drat + wt, mtcars))

Call:
lm(formula = mpg ~ drat + wt, data = mtcars)

Residuals:
    Min      1Q  Median      3Q     Max 
-5.4159 -2.0452  0.0136  1.7704  6.7466 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   30.290      7.318   4.139 0.000274 ***
drat           1.442      1.459   0.989 0.330854    
wt            -4.783      0.797  -6.001 1.59e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 3.047 on 29 degrees of freedom
Multiple R-squared:  0.7609,    Adjusted R-squared:  0.7444 
F-statistic: 46.14 on 2 and 29 DF,  p-value: 9.761e-10

Comment puis-je diviser la valeur r au carré entre les deux variables prédictives?

luciano
la source
1
Ce message fournit des informations sur la façon de partitionner le . R2
COOLSerdash
8
Ce commentaire peut représenter, brièvement et de manière inadéquate, le point de vue selon lequel cela s'avérera souvent futile sinon dangereux. Le succès ou l'échec d'un modèle est mieux considéré comme le résultat d'un effort d'équipe des prédicteurs (et leurs formes fonctionnelles particulières, termes d'interaction, etc., etc.) et doit être jugé comme tel. Naturellement, la plupart d'entre nous s'intéressent à l'importance relative des prédicteurs et ce n'est pas un non-sens, mais les tentatives de quantification doivent être accompagnées de déclarations complètes des limites techniques et philosophiques d'un tel exercice.
Nick Cox

Réponses:

5

Vous pouvez simplement obtenir les deux corrélations distinctes et les mettre au carré ou exécuter deux modèles distincts et obtenir le R ^ 2. Ils ne résumeront que si les prédicteurs sont orthogonaux.

John
la source
2
Par «orthogonal», voulez-vous dire que les deux prédicteurs doivent être non corrélés l'un à l'autre?
luciano
3
Oui, sans corrélation ... c'est la seule façon de faire la somme du total.
John
12

En plus de la réponse de John , vous souhaiterez peut-être obtenir les corrélations quadratiques semi-partielles pour chaque prédicteur.

  • Prédicteurs non corrélés : si les prédicteurs sont orthogonaux (c.-à-d. Non corrélés), les corrélations semi-partielles au carré seront les mêmes que les corrélations au carré d'ordre zéro.
  • Prédicteurs corrélés : si les prédicteurs sont corrélés, la corrélation semi-partielle au carré représentera la variance unique expliquée par un prédicteur donné. Dans ce cas, la somme des corrélations semi-partielles au carré sera inférieure à . Cette variance expliquée restante représentera la variance expliquée par plus d'une variable.R2

Si vous cherchez une fonction R, il y a spcor()dans leppcor package.

Vous pouvez également envisager le sujet plus large de l'évaluation de l'importance des variables dans la régression multiple (par exemple, consultez cette page sur le package relaimpo ).

Jeromy Anglim
la source
3

J'ai ajouté la balise à votre question. Voici une partie de son wiki wiki :

Une méthode courante consiste à ajouter des régresseurs au modèle un par un et à enregistrer l'augmentation R2à mesure que chaque régresseur est ajouté. Étant donné que cette valeur dépend des régresseurs déjà présents dans le modèle, il faut le faire pour chaque ordre possible dans lequel les régresseurs peuvent entrer dans le modèle, puis faire la moyenne des ordres. Ceci est possible pour les petits modèles mais devient prohibitif sur le plan des calculs pour les grands modèles, car le nombre de commandes possibles estp! pour p prédicteurs.

Grömping (2007, The American Statistician ) donne un aperçu et des indications sur la littérature dans le contexte de l'évaluation de l'importance variable.

S. Kolassa - Rétablir Monica
la source
L'ordre est-il vraiment important? Je veux y ~ a + bdire que ce sera la même chose y ~ b + a, n'est-ce pas? Et oui, vous devez calculer la différence entre y ~ aet y ~ a + bainsi que y ~ bet y ~ a + b, mais vous n'avez pas vraiment besoin de courir y ~ b + a, n'est-ce pas ? Il ne vous restait donc qu'à courir2pmodèles (ce qui est viable pour un p légèrement supérieur). Veuillez me corriger si je me trompe ..
naught101
@ naught101: vous avez raison sur l'ordre dans le modèle n'a pas d'importance. Cependant, nous essayons de comprendre la contribution àR2venant de (disons) a. Et puis, la contribution de aen l' absence de b(à savoir, la différence deR2 between y~1 and y~a) will usually be quite different than the contribution of 'a' in the presence of b (i.e., the difference in R2 between y~b and y~a+b). So we need to look at all different possible orderings in which 'a' and the other predictors can enter the model.
S. Kolassa - Reinstate Monica
Right, yes, I see. I mis-read the sentence. You need to evaluate 2p models, but also 2! model differences.
naught101
@naught101: almost correct. There are 2p=q=0p(pq) models ((pq) models containing q out of the p predictors). Except for the trivial model (q=0), you want to compare each model with q predictors with another q different submodels, each one of which we arrive at by removing one predictor, so we have q=1pq(pq) comparisons. (Each model appears multiple times here, and indeed we have more comparisons than 2p models.) And if we have interactions, things become more complicated yet.
S. Kolassa - Reinstate Monica