Pourquoi la régression linéaire a une hypothèse sur le modèle linéaire résiduel mais généralisé a des hypothèses sur la réponse?

14

Pourquoi la régression linéaire et le modèle généralisé ont des hypothèses incohérentes?

Dans la régression linéaire, nous supposons que le résiduel vient de la forme gaussienne
Dans d'autres régressions (régression logistique, régression empoisonnée), nous supposons que la réponse provient d'une certaine distribution (binôme, poission, etc.).

Pourquoi parfois supposer un temps résiduel et un autre temps sur la réponse? Est-ce parce que nous voulons dériver des propriétés différentes?

EDIT: Je pense que mark999 montre que deux formes sont égales. Cependant, j'ai un doute supplémentaire sur iid:

Mon autre question, y a-t-il une hypothèse sur la régression logistique? montre que le modèle linéaire généralisé n'a pas d'hypothèse iid (indépendant mais pas identique)

Est-ce vrai que pour la régression linéaire, si nous posons une hypothèse sur le résidu , nous aurons iid, mais si nous posons une hypothèse sur la réponse , nous aurons des échantillons indépendants mais pas identiques (gaussien différent avec différent )? $\mu$

regression generalized-linear-model assumptions linear Haitao Du
la source

Voir aussi stats.stackexchange.com/questions/295340/…

kjetil b halvorsen

12

Une régression linéaire simple comportant des erreurs gaussiennes est un très bel attribut qui ne se généralise pas aux modèles linéaires généralisés.

Dans les modèles linéaires généralisés, la réponse suit une distribution donnée étant donné la moyenne . La régression linéaire suit ce modèle; si nous avons

$y_i = \beta_0 + \beta_1 x_i + \epsilon_i$

avec $\epsilon_i \sim N(0, \sigma)$

alors nous avons aussi

$y_i \sim N(\beta_0 + \beta_1 x_i, \sigma)$

D'accord, la réponse suit donc la distribution donnée pour les modèles linéaires généralisés, mais pour la régression linéaire, nous avons également que les résidus suivent une distribution gaussienne. Pourquoi souligne-t-on que les résidus sont normaux alors que ce n'est pas la règle généralisée? Eh bien, parce que c'est la règle beaucoup plus utile. La bonne chose à penser à la normalité des résidus est que c'est beaucoup plus facile à examiner. Si nous soustrayons les moyennes estimées, tous les résidus devraient avoir à peu près la même variance et à peu près la même moyenne (0) et seront à peu près normalement distribués (note: je dis "à peu près" parce que si nous n'avons pas d'estimations parfaites de la paramètres de régression, ce que nous ne faisons bien sûr pas, $\epsilon_i$ $x$ . Mais j'espère qu'il y a suffisamment de précision dans les estimations que c'est ignorable!).

D'un autre côté, en regardant les non ajustés , nous ne pouvons pas vraiment dire s'ils sont normaux s'ils ont tous des moyens différents. Par exemple, considérons le modèle suivant: $y_i$

$y_i = 0 + 2 \times x_i + \epsilon_i$

avec et $\epsilon_i \sim N(0, 0.2)$ $x_i \sim \text{Bernoulli}(p = 0.5)$

Le sera alors très bimodal, mais ne viole pas les hypothèses de régression linéaire! En revanche, les résidus suivront une distribution à peu près normale. $y_i$

Voici du Rcode pour illustrer.

x <- rbinom(1000, size = 1, prob = 0.5)
y <- 2 * x + rnorm(1000, sd = 0.2)
fit <- lm(y ~ x)
resids <- residuals(fit)
par(mfrow = c(1,2))
hist(y, main = 'Distribution of Responses')
hist(resids, main = 'Distribution of Residuals')

Cliff AB
la source

y_{i} = 1 + 2 \times x_{i} + ϵ_{i}

$y_i = 1 + 2 \times x_i + \epsilon_i$

3

@ hxd1011: oui, c'est la différence entre la distribution marginale (clairement pas normale) et la distribution conditionnelle donnée x (nous savons que c'est normal puisque nous l'avons simulé!). Ne pas penser à la différence entre les distributions conditionnelles et marginales est une erreur extrêmement courante.

Cliff AB

14

$i = 1, \ldots, n$

Y_{i} = β_{0} + β_{1} X_{i 1} + \dots + β_{k} X_{i k} + ϵ_{i},

$Y_i = \beta_0 + \beta_1 X_{i1} + \ldots + \beta_k X_{ik} + \epsilon_i,$

ϵ_{i}

$\epsilon_i$

σ^{2}

$\sigma^2$

X_{i 1}, \dots, X_{i k}

$X_{i1}, \ldots, X_{ik}$

Y_{i}

$Y_i$

β_{0} + β_{1} X_{i 1} + \dots + β_{k} X_{i k}

$\beta_0 + \beta_1 X_{i1} + \ldots + \beta_k X_{ik}$

σ^{2}

$\sigma^2$

En effet, après avoir conditionné , nous traitons comme étant constants. $X_{i1}, \ldots, X_{ik}$ $\beta_0 + \beta_1 X_{i1} + \ldots + \beta_k X_{ik}$

Le modèle de régression linéaire multiple habituel avec des erreurs normales est un modèle linéaire généralisé avec une réponse normale et un lien d'identité.

mark999
la source

Pourquoi la régression linéaire a une hypothèse sur le modèle linéaire résiduel mais généralisé a des hypothèses sur la réponse?

Réponses: