À titre d'exemple, considérons l' ChickWeight
ensemble de données dans R. La variance augmente évidemment avec le temps, donc si j'utilise une régression linéaire simple comme:
m <- lm(weight ~ Time*Diet, data=ChickWeight)
Mes questions:
- Quels aspects du modèle seront discutables?
- Les problèmes se limitent-ils à extrapoler en dehors de la
Time
plage? - Dans quelle mesure la régression linéaire est-elle tolérante à la violation de cette hypothèse (c.-à-d. Dans quelle mesure doit-elle être hétéroscédastique pour causer des problèmes)?
Réponses:
Le modèle linéaire (ou "moindres carrés ordinaires") a toujours sa propriété de non biais dans ce cas.
Face à l'hétéroscédasticité en termes d'erreur, vous disposez toujours d'estimations de paramètres non biaisées mais vous perdez sur la matrice de covariance: votre inférence (c'est-à-dire les tests de paramètres) peut être erronée. La solution courante consiste à utiliser une méthode robuste pour calculer la matrice de covariance, autrement dit les erreurs standard. Lequel vous utilisez est quelque peu dépendant du domaine, mais la méthode de White est un début.
Et pour être complet, la corrélation en série des termes d'erreur est pire car elle conduira à des estimations de paramètres biaisées.
la source
L'homoscédasticité est l'une des hypothèses de Gauss Markov requises pour que l'OLS soit le meilleur estimateur linéaire sans biais (BLEU).
Résumant brièvement les informations des sites Web ci-dessus, l'hétéroscédasticité n'introduit pas de biais dans les estimations de vos coefficients. Cependant, étant donné l'hétéroscédasticité, vous n'êtes pas en mesure d'estimer correctement la matrice de variance-covariance. Par conséquent, les erreurs standard des coefficients sont fausses. Cela signifie que l'on ne peut pas calculer de statistiques t et de valeurs p et, par conséquent, le test d'hypothèse n'est pas possible. Globalement, sous hétéroscédasticité, OLS perd son efficacité et n'est plus BLEU.
Cependant, l'hétéroscédasticité n'est pas la fin du monde. Heureusement, la correction de l'hétéroscédasticité n'est pas difficile. L'estimateur sandwich vous permet d'estimer des erreurs types cohérentes pour les coefficients. Néanmoins, le calcul des erreurs standard via l'estimateur sandwich a un coût. L'estimateur n'est pas très efficace et les erreurs-types peuvent être très importantes. Une façon de récupérer une partie de l'efficacité consiste à regrouper les erreurs standard si possible.
Vous pouvez trouver des informations plus détaillées à ce sujet sur les sites Web que j'ai mentionnés ci-dessus.
la source
L'absence d'homoscédasticité peut donner des estimations d'erreur standard peu fiables des paramètres. Les estimations des paramètres ne sont pas biaisées. Mais les estimations peuvent ne pas être efficaces (pas BLEUES). Vous pouvez en trouver plus dans le lien suivant
la source
la source
Il y a de bonnes informations ici dans les autres réponses, en particulier à votre première question. J'ai pensé ajouter quelques informations complémentaires concernant vos deux dernières questions.
la source