Que signifie avoir «variance constante» dans un modèle de régression linéaire?

Que signifie avoir "variance constante" dans le terme d'erreur? À mon avis, nous avons des données avec une variable dépendante et une variable indépendante. La variance constante est l'une des hypothèses de la régression linéaire. Je me demande ce que signifie l'homoscédasticité. Puisque même si j'ai 500 lignes, j'aurais une seule valeur de variance qui est évidemment constante. Avec quelle variable dois-je comparer la variance?

regression heteroscedasticity Mukul
la source

Réponses:

Cela signifie que lorsque vous tracez l'erreur individuelle par rapport à la valeur prédite, la variance de la valeur prédite de l'erreur doit être constante. Voir les flèches rouges dans l'image ci-dessous, la longueur des lignes rouges (une approximation de sa variance) est la même.

entrez la description de l'image ici

Penguin_Knight
la source

OK compris.!! Mais puisque c'est une hypothèse, nous n'avons pas besoin de la valider avant d'exécuter le modèle. Et pourquoi avons-nous besoin de cette hypothèse

Mukul

Certaines hypothèses ne peuvent être testées qu'après l'exécution du modèle. Calculer un modèle est simplement mathématique et ne signifie pas interpréter un modèle.

Jean

La plage ne correspond pas à la variance Penguin Knight, vous voudrez peut-être mettre à jour votre libellé ici.

Jean

Si votre hypothèse de variance est erronée, cela signifie généralement que les erreurs types sont erronées et que tout test d'hypothèse pourrait en tirer des conclusions erronées. (Un John différent)

John

Je diffère légèrement. Je ne dirais pas que l'hétéroscédasticité signifie nécessairement que les erreurs-types de vos bêta sont fausses, mais que l'estimateur MLS n'est plus l'estimateur non biaisé le plus efficace. Autrement dit, vous pourriez obtenir plus de puissance / de précision si vous aviez une variance constante (peut-être due à une transformation de Y), ou si vous preniez correctement en compte la non-constance (peut-être via l'estimateur des moindres carrés généralisé).

Gay - Rétablir Monica

Y = β_{0} + β_{1} X + ε où ε ~ N (0, σ_{ε}^{2})

$Y=\beta_0+\beta_1X+\varepsilon \\ \text{where } \varepsilon\sim\mathcal N(0, \sigma^2_\varepsilon)$

β_{0} + β_{1} X

$\beta_0+\beta_1X$

σ_{ε}^{2}

$\sigma^2_\varepsilon$

$\sigma^2_\varepsilon$ $X$ $Y$ $\varepsilon$ $\beta_0,~\beta_1,~\sigma^2_\varepsilon)$ $X$ $\sigma^2_\varepsilon$

Y = β_{0} + β_{1} X + ε où ε ~ N (0, F (X)) où F (X) = \exp (γ_{0} + γ_{1} X) et γ_{1} \neq 0

$Y=\beta_0+\beta_1X+\varepsilon \\ \text{where } \varepsilon\sim\mathcal N(0, f(X)) \\ ~ \\ \text{where } f(X)=\exp(\gamma_0+\gamma_1 X) \\ \text{and }\gamma_1\ne 0$

X

$X$

f (X)

$f(X)$

X

$X$

$X$ . Cependant, j'ai tendance à penser qu'il est préférable de regarder des parcelles. @Penquin_Knight a réussi à montrer à quoi ressemble une variance constante en traçant les résidus d'un modèle où l'homoscédasticité est obtenue par rapport aux valeurs ajustées. L'hétéroscédasticité peut également éventuellement être détectée dans un graphique des données brutes ou dans un graphique à l'emplacement d'échelle (également appelé graphique au niveau de l'étalement). R trace ce dernier pour vous en appelant plot.lm(model, which=2); c'est la racine carrée des valeurs absolues des valeurs résiduelles par rapport aux valeurs ajustées, avec une courbe de faible profondeur superposée. Vous voulez que la coupe lowess soit plate et non en pente.

Examinez les graphiques ci-dessous, qui comparent l'apparence que pourraient avoir les données homoscédastiques et hétéroscédastiques dans ces trois types de figures. Notez la forme d'entonnoir pour les deux tracés supérieurs d'hétéroscédastique et la ligne de faible pente ascendante dans le dernier.

entrez la description de l'image ici

Pour être complet, voici le code que j'ai utilisé pour générer ces données:

set.seed(5)

N  = 500
b0 = 3
b1 = 0.4

s2 = 5
g1 = 1.5
g2 = 0.015

x        = runif(N, min=0, max=100)
y_homo   = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(s2            ))
y_hetero = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(exp(g1 + g2*x)))

mod.homo   = lm(y_homo~x)
mod.hetero = lm(y_hetero~x)

gung - Rétablir Monica
la source

merci c'est très utile. Pouvez-vous également expliquer pourquoi avons-nous besoin de cette hypothèse dans une langue laïque

Mukul

Je vous en prie, @Mukul. L’hypothèse d’homoscédasticité (variance constante) est nécessaire pour faire de l’estimateur MCO (c’est-à-dire le logiciel de procédure par défaut utilisé pour estimer les bêtas) la procédure d’estimation qui produira des distributions d’échantillonnage des bêtas présentant les erreurs types les plus étroites de toutes les échantillonner des distributions centrées sur la valeur réelle. En d’autres termes, il est nécessaire que l’estimateur MCO soit l’ estimateur sans biais de la variance minimale .

Gay - Rétablir Monica

p

$p$

(p (1 - p)) / n)

$(p(1-p))/n)$

@gung dans votre commentaire, vous mettez des italiques sur tous les mots de l'expression estimateur non biaisé de variance minimale. Je comprends qu'avec l'hétéroscédasticité, l'estimateur deviendra moins efficace (plus de variance), mais deviendra-t-il aussi biaisé?

user1205901

@ user1205901, il reste impartial.

gung - Réintégrer Monica