Pourquoi la régression linéaire a une hypothèse sur le modèle linéaire résiduel mais généralisé a des hypothèses sur la réponse?

14

Pourquoi la régression linéaire et le modèle généralisé ont des hypothèses incohérentes?

  • Dans la régression linéaire, nous supposons que le résiduel vient de la forme gaussienne
  • Dans d'autres régressions (régression logistique, régression empoisonnée), nous supposons que la réponse provient d'une certaine distribution (binôme, poission, etc.).

Pourquoi parfois supposer un temps résiduel et un autre temps sur la réponse? Est-ce parce que nous voulons dériver des propriétés différentes?


EDIT: Je pense que mark999 montre que deux formes sont égales. Cependant, j'ai un doute supplémentaire sur iid:

Mon autre question, y a-t-il une hypothèse sur la régression logistique? montre que le modèle linéaire généralisé n'a pas d'hypothèse iid (indépendant mais pas identique)

Est-ce vrai que pour la régression linéaire, si nous posons une hypothèse sur le résidu , nous aurons iid, mais si nous posons une hypothèse sur la réponse , nous aurons des échantillons indépendants mais pas identiques (gaussien différent avec différent )?μ

Haitao Du
la source
Voir aussi stats.stackexchange.com/questions/295340/…
kjetil b halvorsen

Réponses:

12

Une régression linéaire simple comportant des erreurs gaussiennes est un très bel attribut qui ne se généralise pas aux modèles linéaires généralisés.

Dans les modèles linéaires généralisés, la réponse suit une distribution donnée étant donné la moyenne . La régression linéaire suit ce modèle; si nous avons

yi=β0+β1xi+ϵi

avecϵiN(0,σ)

alors nous avons aussi

yiN(β0+β1xi,σ)

D'accord, la réponse suit donc la distribution donnée pour les modèles linéaires généralisés, mais pour la régression linéaire, nous avons également que les résidus suivent une distribution gaussienne. Pourquoi souligne-t-on que les résidus sont normaux alors que ce n'est pas la règle généralisée? Eh bien, parce que c'est la règle beaucoup plus utile. La bonne chose à penser à la normalité des résidus est que c'est beaucoup plus facile à examiner. Si nous soustrayons les moyennes estimées, tous les résidus devraient avoir à peu près la même variance et à peu près la même moyenne (0) et seront à peu près normalement distribués (note: je dis "à peu près" parce que si nous n'avons pas d'estimations parfaites de la paramètres de régression, ce que nous ne faisons bien sûr pas, xϵix . Mais j'espère qu'il y a suffisamment de précision dans les estimations que c'est ignorable!).

D'un autre côté, en regardant les non ajustés , nous ne pouvons pas vraiment dire s'ils sont normaux s'ils ont tous des moyens différents. Par exemple, considérons le modèle suivant:yi

yi=0+2×xi+ϵi

avec etx iBernoulli ( p = 0,5 )ϵiN(0,0.2)xiBernoulli(p=0.5)

Le sera alors très bimodal, mais ne viole pas les hypothèses de régression linéaire! En revanche, les résidus suivront une distribution à peu près normale.yi

Voici du Rcode pour illustrer.

x <- rbinom(1000, size = 1, prob = 0.5)
y <- 2 * x + rnorm(1000, sd = 0.2)
fit <- lm(y ~ x)
resids <- residuals(fit)
par(mfrow = c(1,2))
hist(y, main = 'Distribution of Responses')
hist(resids, main = 'Distribution of Residuals')

histogrammes

Cliff AB
la source
yi=1+2×xi+ϵi
3
@ hxd1011: oui, c'est la différence entre la distribution marginale (clairement pas normale) et la distribution conditionnelle donnée x (nous savons que c'est normal puisque nous l'avons simulé!). Ne pas penser à la différence entre les distributions conditionnelles et marginales est une erreur extrêmement courante.
Cliff AB
14

i=1,,n

Yi=β0+β1Xi1++βkXik+ϵi,
ϵiσ2Xi1,,XikYiβ0+β1Xi1++βkXikσ2

En effet, après avoir conditionné , nous traitons comme étant constants.Xi1,,Xikβ0+β1Xi1++βkXik

Le modèle de régression linéaire multiple habituel avec des erreurs normales est un modèle linéaire généralisé avec une réponse normale et un lien d'identité.

mark999
la source