Pourquoi disons-nous «erreur standard résiduelle»?

14

Une erreur standard est l'écart - type estimé σ ( θ ) d'un estimateur θ pour un paramètre .σ^(θ^)θ^θ

Pourquoi l'écart-type estimé des résidus est-il appelé "erreur-type résiduelle" (par exemple, dans la sortie de la summary.lmfonction de R ) et non "écart-type résiduel"? Quelle estimation de paramètre équipons-nous ici d'une erreur standard?

Considérons-nous chaque résidu comme un estimateur de "son" terme d'erreur et estimons-nous l'erreur-type "regroupée" de tous ces estimateurs?

Michael M
la source
6
Je pense que c'est une chose R. Je ne pense pas que d'autres logiciels utilisent nécessairement cette formulation, et «l'écart-type résiduel» est courant dans les manuels, par exemple. Je n'ai pas de réponse, mais j'ai toujours pensé que c'était bizarre que R utilise cette phrase.
gung - Réintégrer Monica
@gung: ça pourrait être l'explication! Lorsque je recherche sur Google "l'erreur standard résiduelle" entre guillemets, je ne reçois que 0,1% des hits que sans guillemets ...
Michael M
Je pourrais mettre cela comme (non) réponse, si vous préférez.
gung - Rétablir Monica
1
@gung c'est drôle comment l'utilisation d'un logiciel spécifique façonne votre pensée: je ne l'appellerais jamais "sd résiduel" - les résidus ne sont pas des données mais des erreurs, donc l'erreur résiduelle semble être le nom propre. Mais si vous y réfléchissez, cela semble vraiment une chose R.
Tim
2
@Tim, il pourrait être correctement considéré comme une estimation de l'écart type des erreurs , mais les résidus ne sont pas techniquement les erreurs elles-mêmes. Ce n'est pas non plus l'erreur standard de l'erreur SD, pour ce que ça vaut.
gung - Rétablir Monica

Réponses:

12

Je pense que la formulation est spécifique aux R summary.lm() sortieNotez que la valeur sous-jacente est en fait appelée "sigma" ( summary.lm()$sigma). Je ne pense pas que d'autres logiciels utilisent nécessairement ce nom pour l'écart-type des résidus. De plus, l'expression «écart-type résiduel» est courante dans les manuels, par exemple. Je ne sais pas comment cela est devenu le phrasé utilisé dans la summary.lm()sortie de R , mais j'ai toujours pensé que c'était bizarre.

gung - Réintégrer Monica
la source
En quoi est-ce summary.lm(reg)$sigmadifférent de sd(reg$residuals)?
frappe aérienne le
3
@ AndréTerra, le bon degré de liberté est n - p, c'est ce que le résumé utilise. sd utilise var qui utilise n - 1 degrés de liberté. Si vous calculez manuellement l'écart type des résidus divisant par n - p, vous obtiendrez la même réponse que ce que fournit le résumé.
Jdub
3
Pour corroborer le gung, je cite la documentation R de stats::sigma: Le terme impropre «Erreur standard résiduelle» fait partie de trop de sorties R (et S) pour y être facilement modifié.
NRH
2

D'après ma formation en économétrie, cela s'appelle "erreur standard résiduelle" car c'est une estimation de l '"écart type résiduel" réel. Voir cette question connexe qui corrobore cette terminologie.

Une recherche Google pour le terme erreur standard résiduelle montre également beaucoup de hits, donc ce n'est en aucun cas une bizarrerie. J'ai essayé les deux termes avec des guillemets, et les deux apparaissent environ 60 000 fois.

Heisenberg
la source
Intéressant. Mais pourquoi appelleriez-vous une estimation d'un écart-type d' une variable aléatoire (comme un terme d'erreur et non un estimateur spécifique) une "erreur standard"?
Michael M
Je pense que nous devons avoir un nom pour l'estimation (pour distinguer de la valeur réelle), tout nom est aussi bon qu'un autre. Mais sûrement quelqu'un de mieux informé sur l'étymologie peut offrir une meilleure raison. Notez qu'il y a certainement un parallèle avec l'erreur standard du coefficient, qui est l'estimation de l'écart type de l'estimation du coefficient.
Heisenberg
0

En termes simples, l'erreur-type de l'échantillon est une estimation de la distance probable entre la moyenne de l'échantillon et la moyenne de la population, tandis que l'écart-type de l'échantillon est le degré auquel les individus de l'échantillon diffèrent de la moyenne de l'échantillon.

Erreur standard - Wikipedia, l'encyclopédie gratuite

user629019
la source
6
C'est vrai, mais cela ne répond pas réellement à la question. Ce que R appelle «l'erreur-type résiduelle» n'est pas «une estimation de la distance probable entre la moyenne de l'échantillon et la moyenne de la population».
gung - Rétablir Monica
0

Un modèle de régression ajusté utilise les paramètres pour générer des prévisions d'estimation ponctuelles qui sont les moyens des réponses observées si vous deviez reproduire l'étude avec les mêmes valeurs XX un nombre infini de fois ( lorsque le modèle linéaire est vrai ).

La différence entre ces valeurs prédites et celles utilisées pour ajuster le modèle est appelée " résiduels " qui, lors de la réplication du processus de collecte de données, ont des propriétés de variables aléatoires avec 0 moyenne. Les résidus observés sont ensuite utilisés pour estimer ultérieurement la variabilité de ces valeurs et pour estimer la distribution d'échantillonnage des paramètres.

Remarque:

Lorsque l'erreur standard résiduelle est exactement 0, le modèle ajuste parfaitement les données (probablement en raison d'un surajustement).

Si l'erreur standard résiduelle ne peut pas être montrée comme étant significativement différente de la variabilité de la réponse inconditionnelle, alors il y a peu de preuves pour suggérer que le modèle linéaire a une quelconque capacité prédictive.

Abhishek Jaiswal
la source