Erreurs standard pour les coefficients de régression multiples?

18

Je me rends compte que c'est une question très fondamentale, mais je ne trouve de réponse nulle part.

Je calcule les coefficients de régression en utilisant les équations normales ou la décomposition QR. Comment puis-je calculer les erreurs standard pour chaque coefficient? Je pense généralement que les erreurs standard sont calculées comme:

SEx¯ =σx¯n

Qu'est-ce que pour chaque coefficient? Quelle est la manière la plus efficace de calculer cela dans le contexte d'OLS?σx¯

Belmont
la source

Réponses:

19

Lors de l'estimation des moindres carrés (en supposant une composante aléatoire normale), les estimations des paramètres de régression sont normalement distribuées avec une moyenne égale au paramètre de régression réel et à la matrice de covariance s 2 est la variance résiduelle et X T X est la matrice de conception. X T est la transposée de X et X est défini par l'équation du modèle Y = X β + ϵ avec βΣ=s2(XTX)1s2XTXXTXXY=Xβ+ϵβles paramètres de régression et est le terme d'erreur. L'écart type estimé d'un paramètre bêta est obtenu en prenant le terme correspondant dans ( X T X ) - 1 en le multipliant par l'estimation de l'échantillon de la variance résiduelle, puis en prenant la racine carrée. Ce n'est pas un calcul très simple, mais tout logiciel le calculera pour vous et le fournira dans la sortie.ϵ(XTX)1

Exemple

À la page 134 de Draper et Smith (référencé dans mon commentaire), ils fournissent les données suivantes pour ajuster par moindres carrés un modèle ε N ( 0 , I σ 2 ) .Y=β0+β1X+εεN(0,Iσ2)

                      X                      Y                    XY
                      0                     -2                     0
                      2                      0                     0
                      2                      2                     4
                      5                      1                     5
                      5                      3                    15
                      9                      1                     9
                      9                      0                     0
                      9                      0                     0
                      9                      1                     9
                     10                     -1                   -10
                    ---                     --                   ---
Sum                  60                      5                    32
Sum of  Squares     482                     21                   528

Ressemble à un exemple où la pente doit être proche de 0.

Xt=(111111111102255999910).

Donc

XtX=(nXiXiXi2)=(106060482)

et

(XtX)1=(Xi2n(XiX¯)2X¯(XiX¯)2X¯(XiX¯)21(XiX¯)2)=(48210(122)612261221122)=(0.3950.0490.0490.008)

X¯=Xi/n=60/10=6

β=(XTX)1XTY

b1 = 1/61 = 0,0163 et b0 = 0,5 à 0,0163 (6) = 0,402

(XTX)1

Désolé que les équations ne comportent pas d'indice et d'exposant lorsque je les coupe et les colle. La table ne s'est pas bien reproduite non plus car les espaces ont été ignorés. La première chaîne de 3 nombres correspond aux premières valeurs de XY et XY et de même pour les chaînes suivantes de trois. Après Sum vient les sommes pour XY et XY respectivement, puis la somme des carrés pour XY et XY respectivement. Les matrices 2x2 ont également été gâchées. Les valeurs après les crochets doivent être entre crochets sous les chiffres à gauche.

Michael R. Chernick
la source
2
Ce n'est pas un plugin pour mon livre, mais je passe en revue les calculs de la solution des moindres carrés en régression linéaire simple (Y = aX + b) et je calcule les erreurs standard pour a et b, pp.101-103, The Essentials of Biostatistics pour les médecins, les infirmières et les cliniciens, Wiley 2011. une description plus détaillée peut être trouvée dans Draper et Smith Applied Regression Analysis 3e édition, Wiley New York 1998 page 126-127. Dans ma réponse qui suit, je prendrai un exemple de Draper et Smith.
Michael R. Chernick
8
TEX and once you do, it's (almost) as fast to type it in as it is to type in anything in English. I also learned, by studying exemplary posts (such as many replies by @chl, cardinal, and other high-reputation-per-post users), that providing references, clear illustrations, and well-thought out equations is usually highly appreciated and well received. High quality is one thing distinguishing this site from most others.
whuber
2
That is all nice Bill and it is nice that so many people are dedicated to give those high quality posts. I may use Latex for other purposes, like publishing papers. But I don't have the time to go to all the effort that people expect of me on this site. i am not going to invest the time just to provide service on this site.
Michael R. Chernick
4
I think the disconnect is here: "This is just one of many things about this site that requires those posting to put in extra time and effort" - @whuber and I are both saying that it, in fact, does not take extra time if you know how to do it. We don't learn TEX so that we can post on this site - we (at least I) learn TEX because it's an important skill to have as a statistician and happens to make posts much more readable on this site.
Macro
3
Like many of the people on here, yes, I work as a statistician, but I also happen to find it fun - this site is recreational for me and it's a nice bonus that others find some of my posts useful. If you find marking up your equations with TEX to be work and don't think it's worth learning then so be it, but know that some of your content will be overlooked.
Macro