En regardant les définitions Wikipedia de:
- Erreur quadratique moyenne (MSE)
- Somme résiduelle des carrés (RSS)
Il me semble que
où est le nombre d'échantillons et est notre estimation de .
Cependant, aucun des articles de Wikipédia ne mentionne cette relation. Pourquoi? Suis-je en train de manquer quelque chose?
Réponses:
En fait, il est mentionné dans la section Régression de l' erreur quadratique moyenne dans Wikipedia:
Vous pouvez également trouver quelques informations ici: Erreurs et résidus dans les statistiques Il est dit que l'expression erreur quadratique moyenne peut avoir différentes significations dans différents cas, ce qui est parfois délicat.
la source
Mais sachez que Sum of Squared Erros (SSE) et Residue Sum of Squares (RSS) sont parfois utilisés de manière interchangeable, ce qui déroute les lecteurs. Par exemple, consultez cette URL: https://365datascience.com/sum-squares/ pour plus d'informations sur la régression linéaire.
Du point de vue statistique, les erreurs et les résidus sont des concepts complètement différents. Les erreurs se réfèrent principalement à la différence entre les valeurs réelles observées de l'échantillon et vos valeurs prédites, et sont principalement utilisées dans les mesures statistiques comme les erreurs quadratiques moyennes (RMSE) et les erreurs moyennes absolues (MAE). En revanche, les résidus se réfèrent exclusivement aux différences entre les variables dépendantes et les estimations de régression linéaire.
la source
Je ne pense pas que ce soit correct ici si nous considérons que MSE est le sqaure de RMSE. Par exemple, vous disposez d'une série de données échantillonnées sur les prédictions et les observations, maintenant vous essayez de faire une régression linéaire: Observation (O) = a + b X Prédiction (P). Dans ce cas, le MSE est la somme de la différence au carré entre O et P et divisée par la taille de l'échantillon N.
Mais si vous souhaitez mesurer la performance de la régression linéaire, vous devez calculer la moyenne des résidus au carré (MSR). Dans le même cas, il s'agirait tout d'abord de calculer la somme résiduelle des carrés (RSS) qui correspond à la somme des différences au carré entre les valeurs réelles d'observation et les observations prédites dérivées de la régression linéaire, puis elle est suivie pour RSS divisé par N-2 à obtenir MSR.
En termes simples, dans l'exemple, MSE ne peut pas être estimé à l'aide de RSS / N car le composant RSS n'est plus le même pour le composant utilisé pour calculer MSE.
la source