Quels sont les dangers de violer l'hypothèse d'homoscédasticité pour la régression linéaire?

28

À titre d'exemple, considérons l' ChickWeightensemble de données dans R. La variance augmente évidemment avec le temps, donc si j'utilise une régression linéaire simple comme:

m <- lm(weight ~ Time*Diet, data=ChickWeight)

Mes questions:

Quels aspects du modèle seront discutables?
Les problèmes se limitent-ils à extrapoler en dehors de la Timeplage?
Dans quelle mesure la régression linéaire est-elle tolérante à la violation de cette hypothèse (c.-à-d. Dans quelle mesure doit-elle être hétéroscédastique pour causer des problèmes)?

r regression heteroscedasticity assumptions Dan M.
la source

1

Outre les éléments mentionnés dans les réponses, vos intervalles de prédiction n'auront pas non plus la bonne couverture.

Glen_b -Reinstate Monica

22

Le modèle linéaire (ou "moindres carrés ordinaires") a toujours sa propriété de non biais dans ce cas.

Face à l'hétéroscédasticité en termes d'erreur, vous disposez toujours d'estimations de paramètres non biaisées mais vous perdez sur la matrice de covariance: votre inférence (c'est-à-dire les tests de paramètres) peut être erronée. La solution courante consiste à utiliser une méthode robuste pour calculer la matrice de covariance, autrement dit les erreurs standard. Lequel vous utilisez est quelque peu dépendant du domaine, mais la méthode de White est un début.

Et pour être complet, la corrélation en série des termes d'erreur est pire car elle conduira à des estimations de paramètres biaisées.

Dirk Eddelbuettel
la source

Une estimation robuste des erreurs standard (comme la méthode de White) aide aux tests / intervalles de confiance sur les paramètres, mais n'aide pas aux intervalles de prédiction?

kjetil b halvorsen

La covariance du vecteur de paramètres est utilisée dans le calcul des prédictions de sorte que vos intervalles de prédiction seront également biaisés en général.

Mustafa S Eisa

Correct. Attentes non biaisées, l'inférence peut être désactivée. Les deux autres paras ont cependant raison.

Dirk Eddelbuettel

1

Merci de l'avoir attrapé et d'être explicite (plutôt que silencieusement, ou "drive-by", downvote). J'étais tout simplement un peu bâclé dans mon utilisation de la terminologie. Mieux maintenant.

Dirk Eddelbuettel

23

L'homoscédasticité est l'une des hypothèses de Gauss Markov requises pour que l'OLS soit le meilleur estimateur linéaire sans biais (BLEU).

$\beta$

Résumant brièvement les informations des sites Web ci-dessus, l'hétéroscédasticité n'introduit pas de biais dans les estimations de vos coefficients. Cependant, étant donné l'hétéroscédasticité, vous n'êtes pas en mesure d'estimer correctement la matrice de variance-covariance. Par conséquent, les erreurs standard des coefficients sont fausses. Cela signifie que l'on ne peut pas calculer de statistiques t et de valeurs p et, par conséquent, le test d'hypothèse n'est pas possible. Globalement, sous hétéroscédasticité, OLS perd son efficacité et n'est plus BLEU.

Cependant, l'hétéroscédasticité n'est pas la fin du monde. Heureusement, la correction de l'hétéroscédasticité n'est pas difficile. L'estimateur sandwich vous permet d'estimer des erreurs types cohérentes pour les coefficients. Néanmoins, le calcul des erreurs standard via l'estimateur sandwich a un coût. L'estimateur n'est pas très efficace et les erreurs-types peuvent être très importantes. Une façon de récupérer une partie de l'efficacité consiste à regrouper les erreurs standard si possible.

Vous pouvez trouver des informations plus détaillées à ce sujet sur les sites Web que j'ai mentionnés ci-dessus.

Simon O'Rourke
la source

12

L'absence d'homoscédasticité peut donner des estimations d'erreur standard peu fiables des paramètres. Les estimations des paramètres ne sont pas biaisées. Mais les estimations peuvent ne pas être efficaces (pas BLEUES). Vous pouvez en trouver plus dans le lien suivant

vinux
la source

12

$\log(Y)$ $Y$ $\beta$ s incorrectement et entraîner une somme non compétitive d'erreurs absolues. Parfois, le manque de constance de la variance signale un problème de modélisation plus fondamental.

$Y$ $\log(Y)$

Frank Harrell
la source

1

Il y a de bonnes informations ici dans les autres réponses, en particulier à votre première question. J'ai pensé ajouter quelques informations complémentaires concernant vos deux dernières questions.

Les problèmes associés à l'hétéroscédasticité ne se limitent pas à l'extrapolation. Puisqu'ils impliquent principalement des intervalles de confiance, des valeurs de p et des limites de prédiction incorrectes, ils s'appliquent à toute la plage de vos données.
$\le 4\times$

gung - Réintégrer Monica
la source

Quels sont les dangers de violer l'hypothèse d'homoscédasticité pour la régression linéaire?

Réponses: