Qu'est-ce que l'erreur standard résiduelle?

35

Lors de l'exécution d'un modèle de régression multiple dans R, l'une des sorties est une erreur standard résiduelle de 0,0589 sur 95 161 degrés de liberté. Je sais que les 95 161 degrés de liberté sont exprimés par la différence entre le nombre d'observations dans mon échantillon et le nombre de variables dans mon modèle. Quelle est l'erreur standard résiduelle?

ustroetz
la source
2
Cette question et ses réponses pourraient aider: Pourquoi dit-on erreur type résiduelle?
Antoine Vernet
Une question rapide: "l'erreur type résiduelle" est-elle la même chose que "l'écart type résiduel"? Gelman et Hill (p.41, 2007) semblent les utiliser de manière interchangeable.
JetLag

Réponses:

26

Un modèle de régression ajusté utilise les paramètres pour générer des prévisions d'estimation ponctuelles qui sont les moyennes des réponses observées si vous répétiez l'étude avec le même X valeurs un nombre infini de fois (et lorsque le modèle linéaire est vrai). La différence entre ces valeurs prédites et celles utilisées pour ajuster le modèle s'appelle des "résidus" qui, lors de la réplication du processus de collecte de données, possèdent les propriétés des variables aléatoires avec une moyenne de 0.

Les résidus observés sont ensuite utilisés pour estimer ensuite la variabilité de ces valeurs et pour estimer la distribution d'échantillonnage des paramètres. Lorsque l'erreur standard résiduelle est exactement égale à 0, le modèle adapte parfaitement les données (probablement en raison d'un surajustement). S'il est impossible de démontrer que l'erreur-type résiduelle diffère de manière significative de la variabilité de la réponse inconditionnelle, il y a peu de preuves pour suggérer que le modèle linéaire ait une capacité de prédiction.

AdamO
la source
3
Cela peut avoir été répondu avant. Voyez si cette question fournit les réponses dont vous avez besoin. [Interprétation de la sortie lm () de R] [1] [1]: stats.stackexchange.com/questions/5135/…
doublons.nombeaux
26

Supposons que nous ayons la table ANOVA suivante (adaptée de la example(aov)commande de R ):

          Df Sum Sq Mean Sq F value Pr(>F)
Model      1   37.0   37.00   0.483  0.525
Residuals  4  306.3   76.57               

Si vous divisez la somme des carrés de toute source de variation (modèle ou résidus) par ses degrés de liberté respectifs, vous obtenez le carré moyen. Particulièrement pour les résidus:

306.34=76.57576.57

Donc, 76,57 est le carré moyen des résidus, c’est-à-dire la quantité de variation résiduelle (après application du modèle) de votre variable de réponse.

76.57

Waldir Leoncio
la source
1
J'ai voté contre la réponse de @AdamO car, en tant que personne qui utilise directement la régression le plus souvent, cette réponse était la plus simple pour moi. Toutefois, j’apprécie cette réponse car elle illustre la relation notation / conceptuel / méthodologique entre l’ANOVA et la régression linéaire.
svannoy
12

Y=β0+β1X+ϵ
ϵX

β0β1ϵϵ

La RSE est expliquée assez clairement dans "Introduction à l’apprentissage statistique".

petit monstre
la source
2
ϵRSE=RSS(n2)
1
Pour tous ceux qui lisent le epub d’ISL, vous pouvez localiser "page 66" avec ctrl-f "erreur standard résiduelle". (Les fichiers Epub n'ont pas de vrais numéros de page).
user2426679