Comment la matrice d'erreur var / cov est-elle calculée par les progiciels d'analyse statistique dans la pratique?
Cette idée m'est claire en théorie. Mais pas en pratique. Je veux dire, si j'ai un vecteur de variables aléatoires , je comprends que la matrice de variance / covariance recevra le produit externe des vecteurs de déviance par rapport à la moyenne: . Σ Σ = E [ ( X - E ( X ) ) ( X - E ( X ) ) ⊤ ]
Mais quand j'ai un échantillon, les erreurs de mes observations ne sont pas des variables aléatoires. Ou mieux, ils le sont, mais seulement si je prends un certain nombre d'échantillons identiques de la même population. Sinon, ils sont donnés. Donc, encore une fois ma question est: comment un progiciel statistique peut-il produire une matrice var / cov à partir d'une liste d'observations (c'est-à-dire un échantillon) fournie par le chercheur?
Réponses:
La matrice de covariance d'un modèle de type est généralement calculée comme où est le somme résiduelle des carrés, et est le degré de liberté (généralement le nombre d'observations moins le nombre de paramètres).y=Xβ+ϵ
Pour les erreurs standard robustes et / ou groupées, le produit est légèrement modifié. Il peut également y avoir d'autres façons de calculer la matrice de covariance, par exemple, comme le suggère l'attente des produits extérieurs.XtX
la source
Ceci est inclus dans Practical Regression et Anova using R de Julian J.Faraway, page 21 .
Exemple de calcul dans le R, sur la base du modèle linéaire miles par gallon régressé sur plusieurs caractéristiques de modèle de voiture inclus dans la
mtcars
base de données:ols = lm(mpg ~ disp + drat + wt, mtcars)
. Ce sont les calculs manuels et la sortie de lalm()
fonction:estimé à la page 8 de ce document en ligne comme
la source
Avec la régression linéaire, nous ajustons un modèle . est la variable dépendante, les sont les variables prédictives (explicatives). Nous utilisons les données qui nous sont fournies (l'ensemble de formation ou l'échantillon) pour estimer les la population . Les ne sont pas considérés comme des variables aléatoires. Les sont aléatoires en raison de la composante d'erreur.Y X β X YY=β∗X+ε Y X β X Y
la source