Comme expliqué dans ce document de cours (page 1) , un modèle linéaire peut être écrit sous la forme:
où est la variable de réponse et est la i ^ {ème} variable explicative.
Souvent, dans le but de répondre aux hypothèses de test, on peut transformer la variable de réponse. Par exemple, nous appliquons la fonction log sur chaque . Transformer une variable de réponse n'équivaut PAS à faire un GLM.
Un GLM peut être rédigé sous la forme suivante (à partir du document de cours à nouveau (page 3) )
où est juste un autre symbole pour si je comprends bien à la page 2 du document de cours. est appelée la fonction de liaison.
Je ne comprends pas vraiment la différence entre un GLM et un LM avec une variable transformée à partir des diapositives du cours. Pouvez-vous m'aider?
Réponses:
Transformer la réponse avant de faire une régression linéaire, c'est cela:
oùg est une fonction donnée, et nous supposons que g( Y) a une distribution donnée (généralement normale).
Un modèle linéaire généralisé fait ceci:
oùg est le même qu'avant, et nous supposons que Oui a une distribution donnée (généralement pas normale).
la source
Je ne sais pas si cela constituera une réponse complète pour vous, mais cela peut aider à libérer le blocage conceptuel.
Il semble y avoir deux idées fausses dans votre compte:
Gardez à l'esprit que la régression des moindres carrés ordinaires (OLS - «linéaire») est un cas particulier du modèle linéaire généralisé. Ainsi, lorsque vous dites que «[t] transformer une variable de réponse n'équivaut PAS à faire un GLM», c'est incorrect. L'ajustement d'un modèle linéaire ou la transformation de la variable de réponse, puis l'ajustement d'un modèle linéaire constituent tous deux «faire un GLM».
Dans la formulation standard des GLM, ce que vous appelez " " (qui est souvent représenté par , mais ce n'est qu'une question de préférence) est la moyenne de la distribution de réponse conditionnelle à un emplacement spécifique dans l'espace covariable (c'est-à-dire, ). Ainsi, lorsque vous dites "où est juste un autre symbole pour ", c'est également incorrect. Dans la formulation OLS, est une variable aléatoire et / ou est une valeur réalisée de pour l'unité d'observation / d'étude . Autrement dit, (de manière plus générique) représente des données , pas un paramètre .u μ X u y Oui yje Oui je y
(Je ne veux pas harceler les erreurs, je soupçonne simplement que cela peut causer votre confusion.)
Il y a aussi un autre aspect du modèle linéaire généralisé que je ne vois pas vous mentionner. C'est-à-dire que nous spécifions une distribution de réponse. Dans le cas de la régression OLS, la distribution de réponse est gaussienne (normale) et la fonction de liaison est la fonction d'identité. Dans le cas, par exemple, de la régression logistique (qui peut être ce à quoi les gens pensent en premier lorsqu'ils pensent aux GLM), la distribution des réponses est le Bernoulli (/ binomial) et la fonction de lien est le logit. Lorsque nous utilisons des transformations pour garantir que les hypothèses pour OLS sont respectées, nous essayons souvent de rendre la distribution de réponse conditionnelle acceptable de manière normale. Cependant, aucune telle transformation ne rendra la distribution de Bernoulli acceptable.
la source