Quelle est la formule exacte utilisée dans R lm()
pour le R au carré ajusté? Comment puis-je l'interpréter?
Formules ajustées au carré
Il semble exister plusieurs formules pour calculer le R au carré ajusté.
- Formule de Wherry:
- La formule de McNemar:
- Formule du Seigneur:
- Formule de Stein:
Descriptions de manuels
- Selon le manuel de Field, À la découverte de statistiques avec R (2012, p. 273), R utilise l'équation de Wherry qui "nous dit combien la variance en Y serait prise en compte si le modèle avait été dérivé de la population à partir de laquelle l'échantillon a été prélevé". Il ne donne pas la formule pour Wherry. Il recommande d'utiliser la formule de Stein (à la main) pour vérifier le niveau de validation croisée du modèle.
- Kleiber / Zeileis, Applet Econometrics with R (2008, p. 59) affirment qu'il s'agit du "R-carré ajusté de Theil" et ne disent pas exactement comment son interprétation varie du multiple du R-carré.
- Dalgaard, Introductory Statistics with R (2008, p. 113) écrit que "si vous multipliez le [R au carré ajusté] par 100%, cela peut être interprété comme"% de réduction de la variance "". Il ne dit pas à quelle formule cela correspond.
J'avais déjà pensé, et lu beaucoup, que R-squared pénalise l'ajout de variables supplémentaires au modèle. Maintenant, l'utilisation de ces différentes formules semble nécessiter différentes interprétations. J'ai également examiné une question connexe sur le débordement de pile ( Quelle est la différence entre le R carré double et le R carré ajusté dans une régression à moindres carrés à une variable? ) Et le dictionnaire statistique de la Wharton School à UPenn .
Des questions
- Quelle formule est utilisée pour r-carré ajusté par R
lm()
? - Comment puis-je l'interpréter?
ans$adj.r.squared <- 1 - (1 - ans$r.squared) * ((n - df.int)/rdf)
:, où ans $ r.squared = R ^ 2; n = n, rdf = df résiduel, df.int = intercepter df (0 ou 1).Réponses:
1. Quelle formule
lm
dans R utilise-t-on pour le r-carré ajusté?Comme déjà mentionné, taper
summary.lm
vous donnera le code que R utilise pour calculer le R ajusté. Extraire la ligne la plus pertinente que vous obtenez:qui correspond en notation mathématique à:
en supposant qu'il y a une interception (c.-à-d.n est la taille de votre échantillon, et p est votre nombre de prédicteurs. Ainsi, vos degrés d'erreur de liberté (c'est-à-dire
df.int=1
),rdf
) sont égauxn-p-1
.La formule correspond à ce que Yin et Fan (2001) appellent Wherry Formula-1 (il existe apparemment une autre formule de Wherry moins courante qui utilisen - p au dénominateur à la place n - p - 1 ). Ils suggèrent que les noms les plus communs par ordre d'apparition sont "formule de Wherry", "Ezekiel formlua", "formule de Wherry / McNemar" et "formule de Cohen / Cohen".
2. Pourquoi y a-t-il tant de formules r-carré ajustées?
Vous verrez avec toutes les formules, la différence entreR2 et R2un dj devient plus petit à mesure que la taille de l'échantillon augmente. La différence approche de zéro à mesure que la taille de l'échantillon tend à l'infini. La différence devient également plus petite avec moins de prédicteurs.
3. Comment interpréterR2un dj ?
Les références
la source
Regarding your first question: If you don't know how it is calculated look at the code! If you type
summary.lm
in your console, you get the code for this function. If you skim throught the code you'll find a line:ans$adj.r.squared <- 1 - (1 - ans$r.squared) * ((n - df.int)/rdf)
. If you look some lines above of this line you will notice that:ans$r.squared
: is yourn
is the number of the residuals = number of observationsdf.int
is 0 or 1 (depending if you have a intercept)rdf
are your residual dfQuestion 2: From Wikipedia: 'AdjustedR2 is a modification of R2 that adjusts for the number of explanatory terms in a model. '
la source