Quelle est la différence entre les erreurs et les résidus?

20

Bien que ces deux termes omniprésents soient souvent utilisés comme synonymes, il semble parfois y avoir une distinction. Y a-t-il effectivement une différence, ou sont-ils exactement synonymes?

Constantin
la source
Consultez Qin & Gilbert "Le terme d'erreur dans l'histoire de l'économétrie des séries chronologiques" pour un traitement complet si vous avez le temps. Oh, mais ce n'est que pour les données de séries chronologiques.
Richard Hardy

Réponses:

20

Les erreurs concernent le véritable processus de génération de données (DGP), tandis que les résidus sont ce qui reste après avoir estimé votre modèle. En vérité, des hypothèses comme la normalité, l'homoscédasticité et l'indépendance s'appliquent aux erreurs du DGP, et non aux résidus de votre modèle. (Par exemple, après avoir ajusté lesparamètres dans votre modèle, seuls N - ( p + 1 ) résidus peuvent être indépendants.) Cependant, nous n'avons accès qu'aux résidus, c'est donc avec cela que nous travaillons. p+1N(p+1)

gung - Réintégrer Monica
la source
9
(+1) Les résidus peuvent être considérés comme des estimations des erreurs.
Scortchi - Réintégrer Monica
@ABC, DGPsignifie processus de génération de données . Même si votre modèle est approprié et reflète la véritable structure du DGP, les résidus ne seront pas nécessairement normaux, homoscédastiques et indépendants si les erreurs sous-jacentes ne l'étaient pas.
gung - Rétablir Monica
@Scortchi Salut, avez-vous des références qui développent votre commentaire? J'essaie de comprendre pourquoi exactement les résidus peuvent être utilisés comme estimations de l'erreur, car je vois des gens vérifier la normalité des résidus dans l'analyse de régression lorsque l'hypothèse réelle est la normalité de l'erreur, et je ne sais pas précisément pourquoi cela est valide.
Austin
@Austin, si cela vous intéresse toujours, vous devriez poser une nouvelle question.
gung - Rétablir Monica
13

Une erreur est la différence entre la valeur observée et la vraie valeur (très souvent non observée, générée par le DGP).

Un résiduel est la différence entre la valeur observée et la valeur prédite (par le modèle).

Léopold W.
la source
±
Ce lien ( ece.rochester.edu/courses/ECE111/error_uncertainty.pdf ) fournit une bonne explication avec des références aux textes de Bevington et Taylor sur le sujet.
Steven C. Howell
Dans le langage d'apprentissage automatique, le résidu est-il l'erreur de formation et l'erreur est-elle une erreur de test?
Charles Chow
@CharlesChow Cela dépend de l'ensemble de données que vous utilisez. Si vous utilisez l'ensemble d'entraînement, c'est une erreur d'entraînement; si vous utilisez l'ensemble de test, c'est une erreur de test.
Leopold W.15
7

Le terme d'erreur est un concept théorique qui ne peut jamais être observé, mais le résidu est une valeur réelle qui est calculée pour chaque fois qu'une régression est effectuée

Kudzai Lemiel Munyukwa
la source