J'ai vu des "résidus" définis différemment comme étant "des valeurs prédites moins les valeurs réelles" ou des "valeurs prédites moins les valeurs réelles". À titre d'illustration, pour montrer que les deux formules sont largement utilisées, comparez les recherches sur le Web suivantes:
En pratique, cela ne fait presque jamais de différence, puisque le signe des résidus individuels n'a généralement pas d'importance (par exemple, s'ils sont carrés ou si les valeurs absolues sont prises). Cependant, ma question est la suivante: l’ une de ces deux versions (prédiction d’abord / réelle en premier) est-elle considérée comme "standard"? J'aime être cohérent dans mon utilisation, donc s'il existe une norme conventionnelle bien établie, je préférerais la respecter. Cependant, s’il n’ya pas de norme, je suis heureux de l’accepter comme réponse, s’il peut être démontré de manière convaincante qu’il n’ya pas de convention standard.
la source
Réponses:
Les résidus sont toujours réels moins les prévisions. Les modèles sont: Par conséquent, les résidus e , qui sont des estimations des erreurs ε : ε = y - y
Je suis d'accord avec @whuber pour dire que le signe n'a pas vraiment d'importance mathématique. C'est juste bien d'avoir une convention cependant. Et la convention actuelle est telle que dans ma réponse.
Depuis que OP a contesté mon autorité sur ce sujet, j'ajoute quelques références:
la source
Je viens de trouver une raison impérieuse pour une réponse d'être le bonne.
La régression (et la plupart des modèles statistiques) concerne la manière dont les distributions conditionnelles d'une réponse dépendent de variables explicatives. Un élément important de la caractérisation de ces distributions est une mesure généralement appelée "asymétrie" (même si diverses formules ont été proposées): elle fait référence à la manière la plus élémentaire par laquelle la forme de la distribution s'écarte de la symétrie. Voici un exemple de données à deux variables (une réponse et une seule variable explicative x ) avec des réponses conditionnelles positivement asymétriques:y x
La courbe bleue correspond aux moindres carrés ordinaires. Il trace les valeurs ajustées.
Quand on calcule la différence entre une réponse et sa valeur ajustée y , nous déplaçons l'emplacement de la distribution conditionnelle, mais ne change pas autrement sa forme. En particulier, son asymétrie sera inchangée.y y^
Il s'agit d'un graphique de diagnostic standard montrant comment les distributions conditionnelles décalées varient avec les valeurs prédites. Géométriquement, c'est presque la même chose que "faire jusqu'à" le diagramme de dispersion précédent.
Si au contraire on calcule la différence de l'autre cela changera , puis inverser la forme de la distribution conditionnelle. Son asymétrie sera le négatif de la distribution conditionnelle initiale.y^−y,
Cela montre les mêmes quantités que la figure précédente, mais les résidus ont été calculés en soustrayant les données de leurs ajustements, ce qui revient bien entendu à nier les résidus précédents.
Bien que les deux figures précédentes soient mathématiquement équivalentes à tous égards - l'une est convertie en une autre simplement en inversant les points sur l'horizon bleu - l'une d'elles présente une relation visuelle beaucoup plus directe avec l'intrigue d'origine.
Par conséquent, si notre objectif est de relier les caractéristiques de distribution des résidus aux caractéristiques des données d'origine - et c'est presque toujours le cas -, il est préférable de simplement décaler les réponses plutôt que de les décaler et de les inverser.
La bonne réponse est claire: calculer vos résidus commey−y^.
la source
Green & Tashman (2008, Foresight ) présentent un petit sondage sur la question analogue des erreurs de prévision. Je vais résumer les arguments pour l'une ou l'autre convention rapportée par eux:
Arguments pour "prédit-réel"
Au moins un répondant de la sismologie a écrit que c'était également la convention pour modéliser le temps de parcours des ondes sismiques. "Lorsque l'onde sismique réelle arrive avant l'heure prédit par le modèle, nous avons un temps de trajet négatif (erreur)." ( sic )
Cette convention est logique si nous interprétons y comme un budget, un plan ou cible. Ici, une erreur positive signifie que le budget / plan / objectif a été dépassé.y^
Cette convention rend les formules de lissage exponentiel un peu plus intuitives. Nous pouvons utiliser un signe . Avec l’autre convention, il faudrait utiliser un signe - .+ −
Arguments pour "prédits-réels"
Siy=y^−ϵ , alors une erreur positive indique que la prévision était trop élevé. C'est plus intuitif que l'inverse.
De même, si un biais positif est défini comme positif erreur attendue, cela signifierait que les prévisions sont en moyenne trop élevées avec cette convention.
Et c'est à peu près le seul argument avancé pour cette convention. Là encore, étant donné les malentendus que l’autre convention peut entraîner (erreurs positives = prévisions trop basses), c’est une erreur grave.
En fin de compte, je dirais que cela dépend de la personne à laquelle vous devez communiquer vos résidus. Et comme il y a certainement deux côtés à cette discussion, il est logique de noter explicitement la convention que vous suivez.
la source
Une terminologie différente suggère différentes conventions. Le terme "résiduel" implique que c'est ce qui reste après que toutes les variables explicatives ont été prises en compte, c'est-à-dire les prévisions réelles. "Erreur de prédiction" implique qu'il s'agit de la différence entre la prédiction et le réel, c'est-à-dire la prédiction - le réel.
C'est-à-dire que vous prenez la variable y et considérez qu'il existe une "vraie" valeury^ y y^ X , tels que des erreurs de mesure ou des rafales de vent ou autre chose.
la source
La réponse de @Aksakal est tout à fait correcte, mais je vais simplement ajouter un élément supplémentaire qui, selon moi, m'aide (ainsi que mes étudiants).
La devise: les statistiques sont "parfaites". Au fur et à mesure, je peux toujours fournir la prédiction parfaite (je sais que des sourcils se lèvent en ce moment ... alors écoutez-moi).
la source
la source