Quelle est la différence entre la variance et l'erreur quadratique moyenne?

27

Je suis surpris que cela n'ait pas été demandé auparavant, mais je ne trouve pas la question sur stats.stackexchange.

Voici la formule pour calculer la variance d'un échantillon normalement distribué:

(XX¯)2n1

Voici la formule pour calculer l'erreur quadratique moyenne des observations dans une régression linéaire simple:

(yiy^i)2n2

Quelle est la différence entre ces deux formules? La seule différence que je peux voir est que MSE utilise . Donc, si c'est la seule différence, pourquoi ne pas les qualifier à la fois de variance, mais avec différents degrés de liberté?n2

luciano
la source
Qu'est-ce qui n'est pas clair sur la page wikipedia ici ?
TrynnaDoStat
3
La variance est la moyenne de l'écart quadratique des observations par rapport à la moyenne. Le MSE en revanche est la moyenne des écarts au carré des prévisions par rapport aux valeurs réelles.
random_guy
3
La "variance" et "l'erreur quadratique moyenne" ont toutes deux des formules multiples et des applications variées. Pour clarifier votre question, pourriez-vous (a) décrire à quel type de données vous appliquez ces concepts et (b) leur donner des formules? (Il est probable que ce faisant, vous découvrirez également la réponse à votre question.)
whuber
6
Il y a une formule plus générale, tous deux sont des cas particuliers: pest le nombre de paramètres estimés pour obtenir yi(yiy^i)2nppy^
Glen_b -Reinstate Monica
@Glen_b pourriez-vous s'il vous plaît fournir une référence pour plus d'informations sur cette formule générale?
trianta2

Réponses:

28

L'erreur quadratique moyenne telle que vous l'avez écrite pour OLS cache quelque chose:

in(yiy^i)2n2=in[yi(β^0+β^xxi)]2n2

Notez que le numérateur additionne une fonction à la fois de y et de x , vous perdez donc un degré de liberté pour chaque variable, d'où n2 . Dans la formule de la variance de l'échantillon, le numérateur est fonction d'une seule variable, vous perdez donc un seul degré de liberté dans le dénominateur.

Cependant, vous êtes en bonne voie de remarquer qu'il s'agit de quantités conceptuellement similaires. La variance de l'échantillon mesure la dispersion des données autour de la moyenne de l'échantillon (en unités carrées), tandis que le MSE mesure la dispersion verticale des données autour de la ligne de régression de l'échantillon (en unités verticales carrées).

Alexis
la source
@amoeba Hey! Merci pour l'attention. Existe-t-il un guide de style de CV officiel qui a déclenché cette modification? Si c'est le cas, je veux en savoir. Sinon, eh bien, Glen_b m'a une fois à juste titre réprimandé pour avoir colonisé avec mes préférences de style personnel et modifié les autres questions et réponses. Qu'est-ce que tu penses? (Et je pose cette question sur un ton collégial: je pense que votre montage ajoute quelque chose. Je veux juste mieux comprendre nos valeurs de montage.)
Alexis
1
Je ne pense pas qu'il existe un guide de style CV officiel faisant cette suggestion, mais dans LaTeX, il y a des formules en ligne (marquées d'un signe dollar) qui sont rendues directement dans le bloc de texte, et des formules affichées (marquées avec deux signes dollar) qui sont rendus sur une ligne distincte. Les formules affichées utilisent une disposition différente. Votre formule était à l'origine sur une ligne distincte mais marquée d'un signe dollar; Je ne pense pas que cela ait du sens. Cependant, vous avez raison au sujet des préférences personnelles, alors n'hésitez pas à revenir en arrière avec des excuses. La raison pour laquelle j'ai édité est que je corrigeais quand même une faute de frappe dans le Q.
amibe dit Réintégrer Monica
s'il n'y a pas de terme d'interception β0 dans le problème de régression, alors les degrés de liberté de MSE est égal à n-1 comme dans la formule de variance au lieu de n-2
develarist
1

Dans la formule de variance, la moyenne de l'échantillon se rapproche de la moyenne de la population. La moyenne de l'échantillon est calculée pour un échantillon donné avecnpoints de données. Connaître la moyenne de l'échantillon ne nous laisse quen-1 points de données indépendants comme ne point de données est contraint par la moyenne de l'échantillon, donc (n-1) degrés de liberté (DOF) dans le dénominateur de la formule de variance.

Pour obtenir la valeur estimée de y (=β0+β1×X) dans la formule MSE, nous devons estimer à la fois β0 (c.-à-d. l'interception) ainsi que β1 (c'est-à-dire la pente) donc nous perdons 2 DOF, et c'est donc la raison de (n-2) in the denominator in the MSE formula.

Brajesh Kumar
la source