Comment interpréter l'erreur quadratique moyenne (RMSE) par rapport à l'écart type?

21

Disons que j'ai un modèle qui me donne des valeurs projetées. Je calcule RMSE de ces valeurs. Et puis l'écart-type des valeurs réelles.

Est-il judicieux de comparer ces deux valeurs (variances)? Ce que je pense, c'est que si RMSE et l'écart-type sont similaires / identiques, l'erreur / variance de mon modèle est la même que ce qui se passe réellement. Mais s'il n'est même pas logique de comparer ces valeurs, cette conclusion pourrait être fausse. Si ma pensée est vraie, cela signifie-t-il que le modèle est aussi bon qu'il peut l'être parce qu'il ne peut pas attribuer la cause de la variance? Je pense que la dernière partie est probablement fausse ou a au moins besoin de plus d'informations pour répondre.

jkim19
la source

Réponses:

22

Disons que nos réponses sont et nos valeurs prédites sont .y 1 , ... , y ny1,,yny^1,,y^n

La variance de l'échantillon (en utilisant plutôt que pour plus de simplicité) est tandis que le MSE est . Ainsi, la variance de l'échantillon donne à quel point les réponses varient autour de la moyenne tandis que le MSE donne à quel point les réponses varient autour de nos prévisions. Si nous pensons que la moyenne globale \ bar y est le prédicteur le plus simple que nous ayons jamais considéré, alors en comparant le MSE à la variance de l'échantillon des réponses, nous pouvons voir combien de variation supplémentaire nous avons expliquée avec notre modèle. C'est exactement ce que fait la valeur R ^ 2 en régression linéaire.n - 1 1nn-111nje=1n(yje-y¯)2 ˉ y R21nje=1n(yje-y^je)2y¯R2

Considérez l'image suivante: La variance de l'échantillon de est la variabilité autour de la ligne horizontale. Si nous projetons toutes les données sur l' axe nous pouvons le voir. Le MSE est la distance quadratique moyenne à la ligne de régression, c'est-à-dire la variabilité autour de la ligne de régression (c'est-à-dire le ). Ainsi, la variabilité mesurée par la variance de l'échantillon est la distance quadratique moyenne à la ligne horizontale, que nous pouvons voir est nettement supérieure à la distance quadratique moyenne à la ligne de régression. Y y iyjeOuiy^jeentrez la description de l'image ici

jld
la source
5

Dans le cas où vous parlez de l'erreur quadratique moyenne de prédiction, elle peut être ici: selon le nombre ( p ) de paramètres estimés pour la prédiction, c'est-à-dire la perte du degré de liberté (DF).

je(yje-y^je)2n-p,

La variance de l'échantillon peut être: où est simplement un estimateur de la moyenne de .

je(yje-y¯)2n-1,
y¯yje

Vous pouvez donc considérer la dernière formule (variance de l'échantillon) comme un cas spécial de la première (MSE), où et la perte de DF est de 1 puisque le calcul moyen est une estimation.y^je=y¯y¯

Ou, si vous ne vous souciez pas beaucoup de la façon dont est prévu, mais souhaitez obtenir un MSE approximatif sur votre modèle, vous pouvez toujours utiliser la formule suivante pour l'estimer, y^je

je(yje-y^je)2n,

qui est le plus facile à calculer.

Xiao-Feng Li
la source
Je n'ai pas le privilège de commenter la réponse de @Chaconne, mais je doute que sa dernière déclaration ait une faute de frappe, où il dit: "Ainsi, la variabilité mesurée par la variance de l'échantillon est la distance quadratique moyenne à la ligne horizontale, que nous pouvons voir est sensiblement inférieure à la distance quadratique moyenne de la ligne ". Mais dans la figure de sa réponse, la prédiction des valeurs y avec la ligne est assez précise, ce qui signifie que le MSE est petit, au moins beaucoup mieux que la "prédiction" avec une valeur moyenne.
Xiao-Feng Li
3

En l'absence de meilleures informations, la valeur moyenne de la variable cible peut être considérée comme une simple estimation des valeurs de la variable cible, que ce soit en essayant de modéliser les données existantes ou en essayant de prédire des valeurs futures. Cette simple estimation de la variable cible (c'est-à-dire que les valeurs prédites sont toutes égales à la moyenne de la variable cible) sera faussée par une certaine erreur. Une façon standard de mesurer l'erreur moyenne est l' écart type (SD) , , puisque le SD a la belle propriété d'ajuster une distribution en forme de cloche (gaussienne) si la variable cible est normalement distribuée. Ainsi, l'ET peut être considéré comme la quantité d'erreur qui se produit naturellement dans les estimations de la variable cible.1nje=1n(yje-y¯)2Cela en fait la référence que tout modèle doit essayer de battre.

Il existe différentes façons de mesurer l'erreur d'une estimation de modèle ; parmi eux, l’ erreur quadratique moyenne (RMSE) que vous avez mentionnée, , est l’une des le plus populaire. Il est conceptuellement assez similaire au SD: au lieu de mesurer la distance entre une valeur réelle et la moyenne, il utilise essentiellement la même formule pour mesurer la distance entre une valeur réelle et la prévision du modèle pour cette valeur. Un bon modèle devrait, en moyenne, avoir de meilleures prévisions que l'estimation naïve de la moyenne pour toutes les prévisions. Ainsi, la mesure de variation (RMSE) devrait réduire le caractère aléatoire mieux que le SD.1nje=1n(yje-y^je)2

Cet argument s'applique à d'autres mesures d'erreur, non seulement au RMSE, mais le RMSE est particulièrement intéressant pour une comparaison directe avec le SD car leurs formules mathématiques sont analogues.

Tripartio
la source
C'est la meilleure réponse car elle explique en quoi la comparaison pourrait être utile plutôt que de simplement décrire les différences.
Hans