Est-ce que les résidus étudiés sont des résidus standardisés v / s dans le modèle lm

10

Les «résidus étudiés» et les «résidus standardisés» sont-ils les mêmes dans les modèles de régression? J'ai construit un modèle de régression linéaire dans R et je voulais tracer le graphique des valeurs ajustées v / s des résidus Studentized, mais je n'ai pas trouvé de moyen automatisé de le faire dans R.

Supposons que j'ai un modèle

library(MASS)

lm.fit <- lm(Boston$medv~(Boston$lstat))

alors l'utilisation plot(lm.fit)ne fournit aucun tracé des résidus Studentized par rapport aux valeurs ajustées, mais elle fournit cependant un tracé des résidus Standardized par rapport aux valeurs ajustées.

J'ai utilisé plot(lm.fit$fitted.values,studres(lm.fit)et il tracera le graphique souhaité. Je veux donc simplement confirmer que je vais dans le bon sens et que les résidus Studentized et Standardized ne sont pas la même chose. S'ils sont différents, veuillez fournir un guide pour les calculer et leurs définitions. J'ai cherché sur le net et je l'ai trouvé un peu déroutant.

apprenant
la source
2
1 Il est source de confusion parce que (a) En effet , ces types de résidus diffèrent , mais (b) les différentes autorités ne sont pas d' accord sur ce qu'il faut les appeler! Par exemple, la Rterminologie est l'opposé de Montgomery, Peck et Vining (un manuel de régression populaire qui existe depuis 35 ans). Alors méfiez-vous et assurez-vous d'étudier la Rdocumentation et, si nécessaire, son code source plutôt que de vous fier à ce que vous pensez que la terminologie signifie.
whuber

Réponses:

11

Non, les résidus étudiés et les résidus normalisés sont des concepts différents (mais liés).

En fait, R fournit des fonctions intégrées rstandard()et rstudent()dans le cadre des mesures d' influence . Le même package intégré fournit de nombreuses fonctions similaires pour l'effet de levier, la distance du cuisinier, etc. rstudent()est essentiellement la même que celle MASS::studres()que vous pouvez vérifier par vous-même:

> all.equal(MASS::studres(model), rstudent(model))
[1] TRUE

Les résidus standardisés sont un moyen d'estimer l'erreur pour un point de données particulier qui prend en compte l'effet de levier / l'influence du point. Celles-ci sont parfois appelées «résidus étudiés en interne».

ri=eis(ei)=eiMSE(1hii)

ϵiN(0,σ2)ei

Les résidus étudiés pour tout point de données donné sont calculés à partir d'un modèle ajusté à tous les autres points de données, sauf celui en question. Celles-ci sont appelées de diverses manières les «résidus étudiés à l'extérieur», les «résidus supprimés» ou les «résidus réticulés».

riti

ti=ri(nk2nk1ri2)1/2,

La motivation derrière les résidus étudiés vient de leur utilisation dans les tests aberrants. Si nous soupçonnons qu'un point est une valeur aberrante, alors il n'a pas été généré à partir du modèle supposé, par définition. Par conséquent, ce serait une erreur - une violation des hypothèses - d'inclure cette valeur aberrante dans l'ajustement du modèle. Les résidus étudiés sont largement utilisés dans la détection pratique des valeurs aberrantes.

Les résidus étudiés ont également la propriété souhaitable que, pour chaque point de données, la distribution de la distribution t de Student résiduelle soit établie, en supposant que les hypothèses de normalité du modèle de régression d'origine ont été respectées. (Les résidus normalisés n'ont pas une distribution aussi agréable.)

Enfin, pour répondre à toute préoccupation que la bibliothèque R puisse suivre une nomenclature différente de celle ci-dessus, la documentation R indique explicitement qu'elle utilise "standardisée" et "étudiée" dans le même sens que celui décrit ci-dessus.

Fonctions rstandardet rstudentdonnent les résidus standardisés et Studentized respectivement. (Ceux-ci renormalisent les résidus pour avoir une variance unitaire, en utilisant respectivement une mesure globale et une mesure de la variance d'erreur.)

olooney
la source