La raison pour laquelle je pose cette question est qu'il semble que les résidus étudiés en interne semblent avoir le même schéma que les résidus estimés bruts. Ce serait formidable si quelqu'un pouvait offrir une explication.
Supposons un modèle de régression avec la matrice de conception (une colonne suivie de vos prédicteurs), prédictions (où est la "matrice chapeau"), et les résidus . Le modèle de régression suppose que les vraies erreurs ont toutes la même variance (homoscédasticité):
La matrice de covariance des résidus est . Cela signifie que les résidus bruts ont des variances différentes - la diagonale de la matrice . Les éléments diagonaux de sont les valeurs de chapeau .
Les résidus véritablement standardisés avec la variance 1 partout sont donc . Le problème est que la variance d'erreur est inconnue et que les résidus étudiés en interne / externe résultent de choix particuliers pour une estimation .
Étant donné que les résidus bruts devraient être hétéroscédastiques même si les sont homoscédastiques, les résidus bruts sont théoriquement moins bien adaptés pour diagnostiquer des problèmes avec l'hypothèse d'homoscédasticité que les résidus normalisés ou étudiés.
Sur quels types de données avez-vous effectué vos parcelles d'essai? Lorsque toutes les hypothèses se vérifient (ou se rapprochent), je ne m'attendrais pas à une grande différence entre les résidus bruts et studentisés, le principal avantage est lorsqu'il y a des points très influents. Considérez ces données (simulées) qui ont une tendance linéaire positive et une valeur aberrante très influente:
Voici le tracé des valeurs ajustées en fonction des résidus bruts:
Notez que la valeur du résidu de notre point d'influence est plus proche de 0 que les résidus minimum et maximum du reste des points (ce n'est pas dans les 3 résidus bruts les plus extrêmes).
Voici maintenant l'intrigue avec les résidus standardisés (étudiés en interne):
Dans ce graphique, le résidu normalisé se distingue parce que son influence a été prise en compte.
Dans cet exemple simple, il est facile de voir ce qui se passe, mais que se passerait-il si nous avions plus de 1 variable et un point très influent, mais pas inhabituel dans les graphiques en 2 dimensions? Cela ne serait pas évident à partir de parcelles de résidus bruts, mais les résidus étudiés montreraient ce résidu comme plus extrême.x
la source