Erreur quadratique moyenne et somme résiduelle des carrés

31

En regardant les définitions Wikipedia de:

Il me semble que

MSE=1NRSS=1N(fiyi)2

où est le nombre d'échantillons et est notre estimation de .Nfiyi

Cependant, aucun des articles de Wikipédia ne mentionne cette relation. Pourquoi? Suis-je en train de manquer quelque chose?

Josh
la source
6
Je sais que cela semble inutile et plutôt hostile, mais ils ne le mentionnent pas parce que c'est évident. Aussi, vous voulez être un peu prudent, ici. Habituellement, lorsque vous rencontrez un MSE dans un travail empirique réel, ce n'est pas divisé par mais divisé par où est le nombre (y compris l'ordonnée à l'origine) des variables de droite dans certains modèles de régression. RSSNRSSNKK
Bill
10
@Bill: Eh bien, c'est exactement le type de relation qui mène généralement à des articles sur Wikipédia. Votre point concernant le degré de liberté montre également que ce n'est pas aussi évident et certainement quelque chose qui mérite d'être mentionné.
bluenote10
2
@Bill: D'accord, mais l'évidence est très subjective. La zone grise de statistiques / apprentissage automatique est jonchée d'enfer de notation et il est donc bon d'être explicite.
rnoodle

Réponses:

30

En fait, il est mentionné dans la section Régression de l' erreur quadratique moyenne dans Wikipedia:

Dans l'analyse de régression, le terme erreur quadratique moyenne est parfois utilisé pour désigner l'estimation non biaisée de la variance d'erreur: la somme résiduelle des carrés divisée par le nombre de degrés de liberté.

Vous pouvez également trouver quelques informations ici: Erreurs et résidus dans les statistiques Il est dit que l'expression erreur quadratique moyenne peut avoir différentes significations dans différents cas, ce qui est parfois délicat.

quand
la source
4

Mais sachez que Sum of Squared Erros (SSE) et Residue Sum of Squares (RSS) sont parfois utilisés de manière interchangeable, ce qui déroute les lecteurs. Par exemple, consultez cette URL: https://365datascience.com/sum-squares/ pour plus d'informations sur la régression linéaire.

Du point de vue statistique, les erreurs et les résidus sont des concepts complètement différents. Les erreurs se réfèrent principalement à la différence entre les valeurs réelles observées de l'échantillon et vos valeurs prédites, et sont principalement utilisées dans les mesures statistiques comme les erreurs quadratiques moyennes (RMSE) et les erreurs moyennes absolues (MAE). En revanche, les résidus se réfèrent exclusivement aux différences entre les variables dépendantes et les estimations de régression linéaire.

Dr.CYY
la source
0

Je ne pense pas que ce soit correct ici si nous considérons que MSE est le sqaure de RMSE. Par exemple, vous disposez d'une série de données échantillonnées sur les prédictions et les observations, maintenant vous essayez de faire une régression linéaire: Observation (O) = a + b X Prédiction (P). Dans ce cas, le MSE est la somme de la différence au carré entre O et P et divisée par la taille de l'échantillon N.

Mais si vous souhaitez mesurer la performance de la régression linéaire, vous devez calculer la moyenne des résidus au carré (MSR). Dans le même cas, il s'agirait tout d'abord de calculer la somme résiduelle des carrés (RSS) qui correspond à la somme des différences au carré entre les valeurs réelles d'observation et les observations prédites dérivées de la régression linéaire, puis elle est suivie pour RSS divisé par N-2 à obtenir MSR.

En termes simples, dans l'exemple, MSE ne peut pas être estimé à l'aide de RSS / N car le composant RSS n'est plus le même pour le composant utilisé pour calculer MSE.

Dr.CYY
la source
1
Je ne comprends pas cette réponse.
Michael R. Chernick
Regardez, sur la base de l'exemple mentionné de prédiction échantillonnée et des valeurs de données observées, la régression linéaire est établie: Observation (O) = a + b X Prédiction (P) (a, b sont respectivement interception et pente). Dans ce cas, MSE = Σ (OP) ^ 2 / n, où Σ (OP) ^ 2 est la somme des erreurs au carré (SSE) et n est la taille de l'échantillon. Cependant, les résidus carrés moyens (MSR) = Σ (OO´) ^ 2 / n-2, où Σ (OO´) ^ 2 est égal à la somme résiduelle des carrés (RSS) et O` = a + b X P. MSR et Les RSS sont principalement utilisés pour tester la signification globale de la régression linéaire. Notez également, SSE = Systematic Erros (SE) + RSS, où SE = Σ (PO´) ^ 2
Dr.CYY