Les conséquences de l'hétéroscédasticité sont:
L'estimateur des moindres carrés ordinaires (OLS) est toujours cohérent mais il n'est plus efficace .b^=(X′X)X′y
L'estimation où n'est plus un estimateur cohérent pour la matrice de covariance de votre estimateur . Il peut être à la fois biaisé et incohérent. Et en pratique, il peut sous-estimer considérablement la variance. σ 2=1Var^(b)=(X′X)−1σ^2 bσ^2=1n−ke′eb^
Le point (1) n'est peut-être pas un problème majeur; les gens utilisent souvent de toute façon l'estimateur OLS ordinaire. Mais le point (2) doit être traité. Que faire?
Vous avez besoin d' erreurs standard cohérentes avec l'hétéroscédasticité . L'approche standard consiste à s'appuyer sur des hypothèses à large échantillon, des résultats asymptotiques et à estimer la variance de utilisant:b
SS=1
Var^(b)=1n(X′Xn)−1S(X′Xn)−1
où est estimé comme .
SS=1n−k∑i(xiei)(xiei)′
Cela donne des erreurs standard cohérentes avec l'hétéroskédasticité. Ils sont également connus sous le nom d'erreurs standard Huber-White, d'erreurs standard robustes, d'estimateur "sandwich", etc. Utilise le!
Quelques commentaires supplémentaires (mise à jour)
Si l'hétéroskédasticité est suffisamment grande, l'estimation OLS régulière peut avoir de gros problèmes pratiques. Bien qu'il s'agisse toujours d'un estimateur cohérent, il se peut que vous ayez de petits problèmes d'échantillon où votre estimation entière est motivée par quelques observations de variance élevée. (C'est ce à quoi @ seanv507 fait allusion dans les commentaires). L'estimateur OLS est inefficace en ce qu'il donne plus de poids aux observations à variance élevée qu'optimales. L'estimation peut être extrêmement bruyante.
Un problème pour essayer de corriger l'inefficacité est que vous ne connaissez probablement pas non plus la matrice de covariance pour les termes d'erreur, donc l'utilisation de quelque chose comme GLS peut aggraver les choses si votre estimation du terme d'erreur matrice de covariance est une ordure.
De plus, les erreurs standard Huber-White que je donne ci-dessus peuvent avoir de gros problèmes dans de petits échantillons. Il existe une longue littérature sur ce sujet. Par exemple. voir Imbens et Kolesar (2016), «Robust Standard Errors in Small Samples: Some Practical Advice».
Orientation à poursuivre:
S'il s'agit d'une auto-étude, la prochaine chose pratique à considérer est les erreurs standard groupées. Ceux-ci corrigent la corrélation arbitraire au sein des clusters.
Eh bien, la réponse courte est que votre modèle est faux, c'est-à-dire
Ainsi, en cas d'hétéroscédasticité, des problèmes d'estimation de la matrice de variance-covariance se produisent, ce qui conduit à de mauvaises erreurs standard des coefficients, ce qui conduit à son tour à de mauvaises statistiques t et valeurs p. En bref, si vos termes d'erreur n'ont pas de variance constante, les moindres carrés ordinaires ne sont pas le moyen le plus efficace d'estimation. Jetez un oeil à cette question connexe.
la source
L '«hétéroscédasticité» rend difficile l'estimation de l'écart-type réel des erreurs de prévision. Cela peut conduire à des intervalles de confiance trop larges ou trop étroits (en particulier, ils seront trop étroits pour les prédictions hors échantillon, si la variance des erreurs augmente avec le temps).
De plus, le modèle de régression peut se concentrer trop fortement sur un sous-ensemble de données.
Bonne référence: tester les hypothèses de régression linéaire
la source