Pourquoi la régression linéaire et le modèle généralisé ont des hypothèses incohérentes?
- Dans la régression linéaire, nous supposons que le résiduel vient de la forme gaussienne
- Dans d'autres régressions (régression logistique, régression empoisonnée), nous supposons que la réponse provient d'une certaine distribution (binôme, poission, etc.).
Pourquoi parfois supposer un temps résiduel et un autre temps sur la réponse? Est-ce parce que nous voulons dériver des propriétés différentes?
EDIT: Je pense que mark999 montre que deux formes sont égales. Cependant, j'ai un doute supplémentaire sur iid:
Mon autre question, y a-t-il une hypothèse sur la régression logistique? montre que le modèle linéaire généralisé n'a pas d'hypothèse iid (indépendant mais pas identique)
Est-ce vrai que pour la régression linéaire, si nous posons une hypothèse sur le résidu , nous aurons iid, mais si nous posons une hypothèse sur la réponse , nous aurons des échantillons indépendants mais pas identiques (gaussien différent avec différent )?
Réponses:
Une régression linéaire simple comportant des erreurs gaussiennes est un très bel attribut qui ne se généralise pas aux modèles linéaires généralisés.
Dans les modèles linéaires généralisés, la réponse suit une distribution donnée étant donné la moyenne . La régression linéaire suit ce modèle; si nous avons
avecϵi∼N(0,σ)
alors nous avons aussi
D'accord, la réponse suit donc la distribution donnée pour les modèles linéaires généralisés, mais pour la régression linéaire, nous avons également que les résidus suivent une distribution gaussienne. Pourquoi souligne-t-on que les résidus sont normaux alors que ce n'est pas la règle généralisée? Eh bien, parce que c'est la règle beaucoup plus utile. La bonne chose à penser à la normalité des résidus est que c'est beaucoup plus facile à examiner. Si nous soustrayons les moyennes estimées, tous les résidus devraient avoir à peu près la même variance et à peu près la même moyenne (0) et seront à peu près normalement distribués (note: je dis "à peu près" parce que si nous n'avons pas d'estimations parfaites de la paramètres de régression, ce que nous ne faisons bien sûr pas, xϵi x . Mais j'espère qu'il y a suffisamment de précision dans les estimations que c'est ignorable!).
D'un autre côté, en regardant les non ajustés , nous ne pouvons pas vraiment dire s'ils sont normaux s'ils ont tous des moyens différents. Par exemple, considérons le modèle suivant:yi
avec etx i ∼ Bernoulli ( p = 0,5 )ϵi∼N(0,0.2) xi∼Bernoulli(p=0.5)
Le sera alors très bimodal, mais ne viole pas les hypothèses de régression linéaire! En revanche, les résidus suivront une distribution à peu près normale.yi
Voici du
R
code pour illustrer.la source
En effet, après avoir conditionné , nous traitons comme étant constants.Xi1,…,Xik β0+β1Xi1+…+βkXik
Le modèle de régression linéaire multiple habituel avec des erreurs normales est un modèle linéaire généralisé avec une réponse normale et un lien d'identité.
la source