Les «résidus étudiés» et les «résidus standardisés» sont-ils les mêmes dans les modèles de régression? J'ai construit un modèle de régression linéaire dans R et je voulais tracer le graphique des valeurs ajustées v / s des résidus Studentized, mais je n'ai pas trouvé de moyen automatisé de le faire dans R.
Supposons que j'ai un modèle
library(MASS)
lm.fit <- lm(Boston$medv~(Boston$lstat))
alors l'utilisation plot(lm.fit)
ne fournit aucun tracé des résidus Studentized par rapport aux valeurs ajustées, mais elle fournit cependant un tracé des résidus Standardized par rapport aux valeurs ajustées.
J'ai utilisé plot(lm.fit$fitted.values,studres(lm.fit)
et il tracera le graphique souhaité. Je veux donc simplement confirmer que je vais dans le bon sens et que les résidus Studentized et Standardized ne sont pas la même chose. S'ils sont différents, veuillez fournir un guide pour les calculer et leurs définitions. J'ai cherché sur le net et je l'ai trouvé un peu déroutant.
la source
R
terminologie est l'opposé de Montgomery, Peck et Vining (un manuel de régression populaire qui existe depuis 35 ans). Alors méfiez-vous et assurez-vous d'étudier laR
documentation et, si nécessaire, son code source plutôt que de vous fier à ce que vous pensez que la terminologie signifie.Réponses:
Non, les résidus étudiés et les résidus normalisés sont des concepts différents (mais liés).
En fait, R fournit des fonctions intégrées
rstandard()
etrstudent()
dans le cadre des mesures d' influence . Le même package intégré fournit de nombreuses fonctions similaires pour l'effet de levier, la distance du cuisinier, etc.rstudent()
est essentiellement la même que celleMASS::studres()
que vous pouvez vérifier par vous-même:Les résidus standardisés sont un moyen d'estimer l'erreur pour un point de données particulier qui prend en compte l'effet de levier / l'influence du point. Celles-ci sont parfois appelées «résidus étudiés en interne».
Les résidus étudiés pour tout point de données donné sont calculés à partir d'un modèle ajusté à tous les autres points de données, sauf celui en question. Celles-ci sont appelées de diverses manières les «résidus étudiés à l'extérieur», les «résidus supprimés» ou les «résidus réticulés».
La motivation derrière les résidus étudiés vient de leur utilisation dans les tests aberrants. Si nous soupçonnons qu'un point est une valeur aberrante, alors il n'a pas été généré à partir du modèle supposé, par définition. Par conséquent, ce serait une erreur - une violation des hypothèses - d'inclure cette valeur aberrante dans l'ajustement du modèle. Les résidus étudiés sont largement utilisés dans la détection pratique des valeurs aberrantes.
Les résidus étudiés ont également la propriété souhaitable que, pour chaque point de données, la distribution de la distribution t de Student résiduelle soit établie, en supposant que les hypothèses de normalité du modèle de régression d'origine ont été respectées. (Les résidus normalisés n'ont pas une distribution aussi agréable.)
Enfin, pour répondre à toute préoccupation que la bibliothèque R puisse suivre une nomenclature différente de celle ci-dessus, la documentation R indique explicitement qu'elle utilise "standardisée" et "étudiée" dans le même sens que celui décrit ci-dessus.
la source