Pour ma propre compréhension, je suis intéressé par la réplication manuelle du calcul des erreurs types des coefficients estimés, car, par exemple, le résultat de la lm()
fonction est fourni R
, mais je n’ai pas pu le localiser. Quelle est la formule / mise en œuvre utilisée?
115
Réponses:
Le modèle linéaire est écrit comme où Y désigne le vecteur des réponses, est le vecteur des paramètres d'effets fixes, est la matrice de plan correspondant dont les colonnes sont les valeurs des variables explicatives et est le vecteur des erreurs aléatoires.
Il est bien connu qu'une estimation de est donnée par (voir, par exemple, l'article de Wikipédia ) D'où [rappel: , pour un vecteur aléatoire et pour une matrice non aléatoire ]ß = ( X ' X ) - 1 X ' y . Var ( β ) = ( X ' X ) - 1 X 'β
afin que où peut être obtenu par l'erreur quadratique moyenne (MSE) dans la table ANOVA. σ 2
Exemple avec une régression linéaire simple en R
Lorsqu'il n'y a qu'une seule variable explicative, le modèle se réduit à et pour que et les formules deviennent plus transparentes. Par exemple, l’erreur type de la pente estimée est X = ( 1 x 1 1 x 2 ⋮ ⋮ 1 x n ) ,
la source
lm.fit
/summary.lm
est un peu différente, pour la stabilité et l'efficacité ...Les formules pour celles-ci peuvent être trouvées dans n'importe quel texte intermédiaire sur les statistiques, en particulier dans Sheather (2009, chapitre 5) , à partir duquel l'exercice suivant est également réalisé (page 138).
Le code R suivant calcule les estimations de coefficients et leurs erreurs types manuellement
qui produit la sortie
Comparez à la sortie de
lm()
:qui produit la sortie:
la source
solve()
fonction. Ce serait un peu plus long sans l'algèbre matricielle. Existe-t-il un moyen succinct de réaliser cette ligne spécifique avec uniquement des opérateurs de base?Une partie de la réponse d'Ocram est fausse. Réellement:
Et le commentaire de la première réponse montre qu'il est nécessaire d'expliquer davantage la variance du coefficient:
Modifier
Merci, ignoré le chapeau de cette version bêta. La déduction ci-dessus est . Le résultat correct est:wrongly wrong
1.(Pour obtenir cette équation, définissez la dérivée de premier ordre de sur sur zéro, pour maximiser )β^=(X′X)−1X′y. SSR β SSR
2.E(β^|X)=E((X′X)−1X′(Xβ+ϵ)|X)=β+((X′X)−1X′)E(ϵ|X)=β.
3.Var(β^)=E(β^−E(β^|X))2=Var((X′X)−1X′ϵ)=(X′X)−1X′σ2IX(X′X)−1=σ2(X′X)−1
J'espère que ça aide.
la source