Que signifie avoir «variance constante» dans un modèle de régression linéaire?

53

Que signifie avoir "variance constante" dans le terme d'erreur? À mon avis, nous avons des données avec une variable dépendante et une variable indépendante. La variance constante est l'une des hypothèses de la régression linéaire. Je me demande ce que signifie l'homoscédasticité. Puisque même si j'ai 500 lignes, j'aurais une seule valeur de variance qui est évidemment constante. Avec quelle variable dois-je comparer la variance?

Mukul
la source

Réponses:

34

Cela signifie que lorsque vous tracez l'erreur individuelle par rapport à la valeur prédite, la variance de la valeur prédite de l'erreur doit être constante. Voir les flèches rouges dans l'image ci-dessous, la longueur des lignes rouges (une approximation de sa variance) est la même.

entrez la description de l'image ici

Penguin_Knight
la source
1
OK compris.!! Mais puisque c'est une hypothèse, nous n'avons pas besoin de la valider avant d'exécuter le modèle. Et pourquoi avons-nous besoin de cette hypothèse
Mukul
2
Certaines hypothèses ne peuvent être testées qu'après l'exécution du modèle. Calculer un modèle est simplement mathématique et ne signifie pas interpréter un modèle.
Jean
6
La plage ne correspond pas à la variance Penguin Knight, vous voudrez peut-être mettre à jour votre libellé ici.
Jean
4
Si votre hypothèse de variance est erronée, cela signifie généralement que les erreurs types sont erronées et que tout test d'hypothèse pourrait en tirer des conclusions erronées. (Un John différent)
John
4
Je diffère légèrement. Je ne dirais pas que l'hétéroscédasticité signifie nécessairement que les erreurs-types de vos bêta sont fausses, mais que l'estimateur MLS n'est plus l'estimateur non biaisé le plus efficace. Autrement dit, vous pourriez obtenir plus de puissance / de précision si vous aviez une variance constante (peut-être due à une transformation de Y), ou si vous preniez correctement en compte la non-constance (peut-être via l'estimateur des moindres carrés généralisé).
Gay - Rétablir Monica
58


Y=β0+β1X+εoù ε~N(0,σε2)
β0+β1Xσε2

σε2XYεβ0, β1, σε2)Xσε2

Y=β0+β1X+εoù ε~N(0,F(X)) où F(X)=exp(γ0+γ1X)et γ10
XF(X) X

X. Cependant, j'ai tendance à penser qu'il est préférable de regarder des parcelles. @Penquin_Knight a réussi à montrer à quoi ressemble une variance constante en traçant les résidus d'un modèle où l'homoscédasticité est obtenue par rapport aux valeurs ajustées. L'hétéroscédasticité peut également éventuellement être détectée dans un graphique des données brutes ou dans un graphique à l'emplacement d'échelle (également appelé graphique au niveau de l'étalement). R trace ce dernier pour vous en appelant plot.lm(model, which=2); c'est la racine carrée des valeurs absolues des valeurs résiduelles par rapport aux valeurs ajustées, avec une courbe de faible profondeur superposée. Vous voulez que la coupe lowess soit plate et non en pente.

Examinez les graphiques ci-dessous, qui comparent l'apparence que pourraient avoir les données homoscédastiques et hétéroscédastiques dans ces trois types de figures. Notez la forme d'entonnoir pour les deux tracés supérieurs d'hétéroscédastique et la ligne de faible pente ascendante dans le dernier.

entrez la description de l'image ici

Pour être complet, voici le code que j'ai utilisé pour générer ces données:

set.seed(5)

N  = 500
b0 = 3
b1 = 0.4

s2 = 5
g1 = 1.5
g2 = 0.015

x        = runif(N, min=0, max=100)
y_homo   = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(s2            ))
y_hetero = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(exp(g1 + g2*x)))

mod.homo   = lm(y_homo~x)
mod.hetero = lm(y_hetero~x)
gung - Rétablir Monica
la source
1
merci c'est très utile. Pouvez-vous également expliquer pourquoi avons-nous besoin de cette hypothèse dans une langue laïque
Mukul
5
Je vous en prie, @Mukul. L’hypothèse d’homoscédasticité (variance constante) est nécessaire pour faire de l’estimateur MCO (c’est-à-dire le logiciel de procédure par défaut utilisé pour estimer les bêtas) la procédure d’estimation qui produira des distributions d’échantillonnage des bêtas présentant les erreurs types les plus étroites de toutes les échantillonner des distributions centrées sur la valeur réelle. En d’autres termes, il est nécessaire que l’estimateur MCO soit l’ estimateur sans biais de la variance minimale .
Gay - Rétablir Monica
5
p(p(1-p))/n)
2
@gung dans votre commentaire, vous mettez des italiques sur tous les mots de l'expression estimateur non biaisé de variance minimale. Je comprends qu'avec l'hétéroscédasticité, l'estimateur deviendra moins efficace (plus de variance), mais deviendra-t-il aussi biaisé?
user1205901
5
@ user1205901, il reste impartial.
gung - Réintégrer Monica