La fonction lm dans R peut imprimer la covariance estimée des coefficients de régression. Que nous fournissent ces informations? Pouvons-nous maintenant mieux interpréter le modèle ou diagnostiquer les problèmes qui pourraient être présents dans le modèle?
13
Réponses:
L'utilisation la plus fondamentale de la matrice de covariance est d'obtenir les erreurs-types des estimations de régression. Si le chercheur ne s'intéresse qu'aux erreurs-types des paramètres de régression individuels eux-mêmes, il peut simplement prendre la racine carrée de la diagonale pour obtenir les erreurs-types individuelles.
Cependant, il arrive souvent que vous soyez intéressé par une combinaison linéaire de paramètres de régression. Par exemple, si vous avez une variable indicatrice pour un groupe donné, vous pourriez être intéressé par la moyenne du groupe, qui serait
Ensuite, pour trouver l'erreur standard pour la moyenne estimée de ce groupe, vous auriez
où est un vecteur de vos contrastes et est la matrice de covariance. Dans notre cas, si nous n'avons que la covariable d'addition "grp", alors ( pour l'ordonnée à l'origine, pour appartenir au groupe).X S X=(1,1) 1 1
De plus, la matrice de covariance (ou plus, la matrice de corrélation, qui est identifiée de manière unique à partir de la matrice de covariance mais pas l'inverse) peut être très utile pour certains diagnostics de modèle. Si deux variables sont fortement corrélées, une façon de penser est que le modèle a du mal à déterminer quelle variable est responsable d'un effet (car elles sont si étroitement liées). Cela peut être utile pour toute une variété de cas, tels que le choix de sous-ensembles de covariables à utiliser dans un modèle prédictif; si deux variables sont fortement corrélées, vous souhaiterez peut-être utiliser uniquement l'une des deux dans votre modèle prédictif.
la source
Il existe deux "types" de coefficients de régression:
Réfléchissez maintenant à ce que signifie la covariance. Prenez deux variables aléatoires et . Siest élevé, chaque fois que vous dessinez une grande valeur absolue de vous pouvez également vous attendre à dessiner une grande valeur absolue de dans la même direction. Notez que «élevé» ici est relatif à la quantité de variation de et , comme indiqué dans les commentaires.X Y |Cov(X,Y)| X Y X Y
La covariance (estimée) de deux coefficients de régression est la covariance des estimations , . Si la covariance entre les coefficients estimés et est élevée, dans tout échantillon où est élevé, vous pouvez également vous attendre à ce que soit élevé. Dans un sens plus bayésien, contient des informations sur .b b1 b2 b1 b2 b1 b2
Notez à nouveau que "élevé" est relatif. Ici, " est élevé" signifie que " est élevé par rapport à son erreur standard", et leur covariance étant "élevée" signifie "élevée par rapport au produit de leurs erreurs standard". Une façon de lisser ces hoquets d'interprétation consiste à normaliser chaque entrée de régression en la divisant par son écart-type (ou deux écarts-types dans certains cas).b1 b1
Un utilisateur de ce site a décrit comme "un peu fudge", mais je ne suis pas entièrement d'accord. D'une part, vous pourriez utiliser cette interprétation pour trouver des priors informatifs dans la régression bayésienne.Cov(b1,b2)
Quant à ce que cela est réellement utilisé, la réponse de Cliff AB est un bon résumé.
la source