Cela ressemble à une question similaire et n'a pas reçu beaucoup de réponses.
En omettant des tests tels que Cook's D, et en regardant simplement les résidus en tant que groupe, je suis intéressé par la façon dont les autres utilisent les résidus lors de l'évaluation de la qualité de l'ajustement. J'utilise les résidus bruts:
- dans un QQ-plot, pour évaluer la normalité
- dans un diagramme de dispersion de par rapport aux résidus, pour la vérification du globe oculaire (a) de l'hétéroscédasticité et (b) de l'autocorrélation en série.
Pour tracer par rapport aux résidus pour examiner les valeurs de où des valeurs aberrantes peuvent se produire, je préfère utiliser les résidus étudiés . La raison de ma préférence est qu'elle permet de visualiser facilement quels résidus pour lesquels les valeurs sont problématiques, bien que les résidus normalisés fournissent un résultat extrêmement similaire. Ma théorie sur laquelle on utilise est que cela dépend de l'université dans laquelle on est allé.
Est-ce similaire à la façon dont les autres utilisent les résidus? D'autres utilisent-ils ce nombre de graphiques en combinaison avec des statistiques récapitulatives?
la source
Réponses:
Ce n'est pas tant une réponse qu'une clarification de la terminologie. Votre question porte sur les résidus bruts, standardisés et studentisés. Cependant, ce n'est pas la terminologie utilisée par la plupart des statisticiens, bien que je note que vos notes de classe indiquent que c'est le cas.
Raw: comme vous l'avez.
Standardisé: il s'agit en fait des résidus bruts divisés par la véritable déviation standard des résidus. Comme l'écart-type réel est rarement connu, un résidu normalisé n'est presque jamais utilisé.
Studentized en interne: parce que l'écart type réel des résidus n'est généralement pas connu, l'écart type estimé est utilisé à la place. Il s'agit d'un résidu interétudiant étudiant, et c'est ce que vous avez appelé standardisé.
Étudiée en externe: identique au résidu en étudiant en interne, sauf que l'estimation de l'écart-type des résidus est calculée à partir d'une régression en laissant de côté l'observation en question.
Pearson: le résidu brut divisé par l'écart-type de la variable de réponse (la variable y) plutôt que des résidus. Vous ne l'avez pas répertorié.
"en laisser un": n'a pas de nom formel, mais il est identique aux notes de classe.
standardisé "en laisser un": n'a pas non plus de nom formel, mais ce n'est pas ce que les notes de classe appellent studentized.
Sources:
le même lien wiki que vous avez sur les résidus studentisés ("un résidu studentisé est le quotient résultant de la division d'un résidu par une estimation de son écart type")
documentation pour le calcul résiduel dans SAS
la source
Re: parcelles,
Le surapprentissage existe, mais le surplotage ne peut pas vraiment faire beaucoup de mal, en particulier au stade du diagnostic. Un tracé de probabilité normale normalisé ne peut pas faire de mal à côté de votre tracé QQ. Je trouve préférable d'évaluer le milieu de la distribution.
Re: résidus,
J'exécute des résidus standardisés et étudiés au stade de brouillon et finis généralement par coder les résidus standardisés. Je ne sais pas ce que les autres exécutent réellement, car les diagnostics sont vraiment codés dans le matériel de réplication que je trouve en ligne.
Re: diagnostics,
vif
hettest
la source