Je suis surpris que cela n'ait pas été demandé auparavant, mais je ne trouve pas la question sur stats.stackexchange.
Voici la formule pour calculer la variance d'un échantillon normalement distribué:
Voici la formule pour calculer l'erreur quadratique moyenne des observations dans une régression linéaire simple:
Quelle est la différence entre ces deux formules? La seule différence que je peux voir est que MSE utilise . Donc, si c'est la seule différence, pourquoi ne pas les qualifier à la fois de variance, mais avec différents degrés de liberté?
Réponses:
L'erreur quadratique moyenne telle que vous l'avez écrite pour OLS cache quelque chose:
Notez que le numérateur additionne une fonction à la fois dey et de x , vous perdez donc un degré de liberté pour chaque variable, d'où n−2 . Dans la formule de la variance de l'échantillon, le numérateur est fonction d'une seule variable, vous perdez donc un seul degré de liberté dans le dénominateur.
Cependant, vous êtes en bonne voie de remarquer qu'il s'agit de quantités conceptuellement similaires. La variance de l'échantillon mesure la dispersion des données autour de la moyenne de l'échantillon (en unités carrées), tandis que le MSE mesure la dispersion verticale des données autour de la ligne de régression de l'échantillon (en unités verticales carrées).
la source
Dans la formule de variance, la moyenne de l'échantillon se rapproche de la moyenne de la population. La moyenne de l'échantillon est calculée pour un échantillon donné avecn points de données. Connaître la moyenne de l'échantillon ne nous laisse quen - 1 points de données indépendants comme n e point de données est contraint par la moyenne de l'échantillon, donc (n - 1 ) degrés de liberté (DOF) dans le dénominateur de la formule de variance.
Pour obtenir la valeur estimée de y (= β0+ β1× x ) dans la formule MSE, nous devons estimer à la fois β0 (c.-à-d. l'interception) ainsi que β1 (c'est-à-dire la pente) donc nous perdons 2 DOF, et c'est donc la raison de (n - 2 ) in the denominator in the MSE formula.
la source