Comment interpréter les erreurs types des coefficients en régression linéaire?

26

Je me demande comment interpréter les erreurs standard de coefficient d'une régression lors de l'utilisation de la fonction d'affichage dans R.

Par exemple dans la sortie suivante:

lm(formula = y ~ x1 + x2, data = sub.pyth)
        coef.est coef.se
(Intercept) 1.32     0.39   
x1          0.51     0.05   
x2          0.81     0.02   

n = 40, k = 3
residual sd = 0.90, R-Squared = 0.97

Une erreur standard plus élevée implique-t-elle une plus grande signification?

Aussi pour l'écart type résiduel, une valeur plus élevée signifie une plus grande dispersion, mais le R au carré montre un ajustement très proche, n'est-ce pas une contradiction?

au dessus
la source

Réponses:

52

Les estimations de paramètres, comme une moyenne d'échantillon ou un coefficient de régression OLS, sont des statistiques d'échantillon que nous utilisons pour tirer des inférences sur les paramètres de population correspondants. Les paramètres de population sont ce qui nous importe vraiment, mais comme nous n'avons pas accès à l'ensemble de la population (généralement supposée infinie), nous devons plutôt utiliser cette approche. Cependant, il y a certains faits inconfortables qui viennent avec cette approche. Par exemple, si nous prenions un autre échantillon et calculions la statistique pour estimer à nouveau le paramètre, nous trouverions presque certainement qu'il diffère. De plus, aucune de ces estimations ne devrait correspondre tout à fait à la vraie valeur du paramètre que nous voulons connaître. En fait, si nous faisions cela encore et encore, en continuant d'échantillonner et d'estimer pour toujours, on constaterait que la fréquence relative des différentes valeurs estimées suivait une distribution de probabilité. Le théorème de la limite centrale suggère que cette distribution est probablement normale. Nous avons besoin d'un moyen de quantifier le degré d'incertitude dans cette distribution. C'est ce que l'erreur standard fait pour vous.

Dans votre exemple, vous voulez connaître la pente de la relation linéaire entre x1 et y dans la population, mais vous n'avez accès qu'à votre échantillon. Dans votre échantillon, cette pente est de 0,51, mais sans connaître la variabilité de la distribution d'échantillonnage correspondante , il est difficile de savoir quoi faire de ce nombre. L'erreur type, 0,05 dans ce cas, est l'écart type de cette distribution d'échantillonnage. Pour calculer la signification, vous divisez l'estimation par le SE et recherchez le quotient dans le tableau. Ainsi, des SE plus grandes signifient une signification plus faible .

L'écart type résiduel n'a rien à voir avec les distributions d'échantillonnage de vos pentes. Il s'agit simplement de l'écart type de votre échantillon conditionnel à votre modèle. Il n'y a pas de contradiction, il ne pourrait pas y en avoir. Quant à la façon dont vous avez une SD plus grande avec un R ^ 2 élevé et seulement 40 points de données, je suppose que vous avez l'opposé de la restriction de plage - vos valeurs x sont très largement réparties.

gung - Réintégrer Monica
la source
Réponse excellente et très claire! Donc, fondamentalement, pour la deuxième question, le SD indique la dispersion horizontale et le R ^ 2 indique l'ajustement global ou la dispersion verticale?
dessus
7
@Dbr, heureux de vous aider. Habituellement, nous considérons la variable de réponse comme étant sur l'axe vertical et la variable prédictive sur l'axe horizontal. Avec cette configuration, tout est vertical - la régression minimise les distances verticales entre les prédictions et la variable de réponse (SSE). De même, le SD résiduel est une mesure de la dispersion verticale après avoir pris en compte les valeurs prédites. Enfin, R ^ 2 est le rapport de la dispersion verticale de vos prédictions sur la dispersion verticale totale de vos données brutes.
gung - Réintégrer Monica