Hypothèse de normalité dans la régression linéaire

En tant qu'hypothèse de régression linéaire, la normalité de la distribution de l'erreur est parfois à tort "étendue" ou interprétée comme le besoin de normalité du y ou du x.

Est-il possible de construire un scénario / ensemble de données où les X et Y ne sont pas normaux mais où le terme d'erreur est et donc les estimations de régression linéaire obtenues sont valides?

regression linear-model assumptions ECII
la source

Exemple trivial: X a une distribution de Bernoulli (c'est-à-dire en prenant les valeurs 0 ou 1); Y = X + N (0, 0,1). Ni X ni Y ne sont normalement distribués seuls, mais régresser Y sur X fonctionne toujours.

Hong Ooi

Je suppose que vous pensez à la distribution des résidus, pas à la distribution des variables.

tashuhka

J'ai un exemple élaboré ici: Et si les résidus sont normalement distribués mais Y ne l'est pas?

gung - Rétablir Monica

Connexes: stats.stackexchange.com/questions/148803/…

kjetil b halvorsen

Réponses:

Développer le commentaire de Hong Oois avec une image. Voici une image d'un ensemble de données où aucun des marginaux n'est normalement distribué mais les résidus le sont toujours, donc les hypothèses de régression linéaire sont toujours valides:

entrez la description de l'image ici

L'image a été générée par le code R suivant:

library(psych)
x <- rbinom(100, 1, 0.3)
y <- rnorm(length(x), 5 + x * 5, 1)

scatter.hist(x, y, correl=F, density=F, ellipse=F, xlab="x", ylab="y")

Rasmus Bååth
la source