Modèle linéaire non linéaire ou généralisé: comment référez-vous à la régression logistique, Poisson, etc.?

23

J'ai une question sur la sémantique sur laquelle j'aimerais avoir l'avis de mes collègues statisticiens.

Nous savons que des modèles tels que la logistique, Poisson, etc. tombent sous l'égide de modèles linéaires généralisés. Le modèle comprend des fonctions non linéaires des paramètres, qui peuvent à leur tour être modélisées en utilisant le cadre de modèle linéaire en utilisant la fonction de lien appropriée.

Je me demande si vous considérez (enseignez?) Des situations telles que la régression logistique comme:

  1. Modèle non linéaire, compte tenu de la forme des paramètres
  2. Modèle linéaire, puisque le lien nous transforme dans le cadre du modèle linéaire
  3. Simultanément (1) et (2): il "commence" comme un modèle non linéaire, mais peut être utilisé de manière à nous permettre de le considérer comme un modèle linéaire

J'aimerais pouvoir mettre en place un véritable sondage ...

Meg
la source

Réponses:

24

c'est une excellente question.

Nous savons que des modèles tels que la logistique, Poisson, etc. tombent sous l'égide de modèles linéaires généralisés.

Eh bien, oui et non. Étant donné le contexte de la question, nous devons être très prudents pour spécifier de quoi nous parlons - et "logistique" et "Poisson" seuls sont insuffisants pour décrire ce qui est prévu.

(i) "Poisson" est une distribution. En tant que description d'une distribution conditionnelle, elle n'est pas linéaire (et donc pas un GLM) sauf si vous spécifiez un modèle linéaire (en paramètres) pour décrire la moyenne conditionnelle (c'est-à-dire qu'il ne suffit pas simplement de dire "Poisson"). Quand les gens précisent « la régression de Poisson », ils ont l' intention presque toujours à un modèle qui est linéaire dans les paramètres, et est donc un GLM. Mais «Poisson» à lui seul pourrait être un certain nombre de choses *.

(ii) "Logistique" d'autre part se réfère à la description d'une moyenne (que la moyenne est logistique dans les prédicteurs). Ce n'est pas un GLM sauf si vous le combinez avec une distribution conditionnelle qui est dans la famille exponentielle. D'un autre côté, quand les gens disent " régression logistique ", ils signifient presque toujours un modèle binomial avec un lien logit - cela signifie que c'est logistique dans les prédicteurs, le modèle est linéaire dans les paramètres et appartient à la famille exponentielle, tout comme le GLM.

Le modèle comprend des fonctions non linéaires des paramètres,

Eh bien, encore une fois, oui et non.

Le linéaire dans le "modèle linéaire généralisé" indique que les paramètres entrent linéairement dans le modèle. Plus précisément, ce que l'on veut dire, c'est qu'à l'échelle du prédicteur linéaire , le modèle est de la forme .η=g(μ)η=Xβ

qui peut à son tour être modélisé en utilisant le cadre du modèle linéaire en utilisant la fonction de lien appropriée.

Correct

Je me demande si vous considérez (enseignez?) Des situations telles que la régression logistique comme:

(Je modifie ici l'ordre de votre question)

Modèle linéaire, puisque le lien nous transforme dans le cadre du modèle linéaire

Il est classique d'appeler un GLM "linéaire", précisément pour cette raison. En effet, il est assez clair que c'est la convention, car elle est juste là dans le nom .

Modèle non linéaire, compte tenu de la forme des paramètres

Nous devons être très prudents ici, car "non linéaire" se réfère généralement à un modèle qui est non linéaire en paramètres. Contraste régression non linéaire avec des modèles linéaires généralisés.

Donc, si vous souhaitez utiliser le terme «non linéaire» pour décrire un GLM, il est important de spécifier soigneusement ce que vous voulez dire - généralement, que la moyenne n'est pas liée de manière linéaire aux prédicteurs.

En effet, si vous utilisez "non linéaire" pour faire référence aux GLM, vous aurez des difficultés non seulement avec la convention (et donc risquez d'être mal compris), mais aussi lorsque vous essayez de parler de modèles non linéaires généralisés . Il est un peu difficile d'expliquer la distinction si vous avez déjà qualifié les GLM de "modèles non linéaires"!

* Considérons un modèle de régression non linéaire de Poisson , un modèle où il n'y a pas de pour lequel les paramètres entrent linéairement, nous avons donc encore:g(μ)

OuiPoisson(μX)

mais par exemple, où est l'âge, à un donné correspond aux décès observés et est un modèle de mortalité annuelle de la population à l'âge :XOuiXμXX

μX=α+exp(βX).

(Normalement, nous aurions ici un décalage pour la population à l'âge qui déplacerait le terme , mais nous pouvons poser une situation où nous observons une exposition constante. Notez que les modèles de Poisson et binomiaux sont utilisés pour modéliser la mortalité.)Xα

Ici, le premier terme représente un taux de mortalité constant dû (par exemple) aux accidents (ou à d'autres effets peu liés à l'âge) tandis que le second terme a un taux de mortalité croissant en raison de l'âge. Un tel modèle peut peut-être parfois être réalisable sur de courtes gammes d'âge tardif d'adulte mais pas de sénescence; c'est essentiellement la loi de Makeham (présentée ici comme une fonction de risque, mais pour laquelle un taux annualisé serait une approximation raisonnable).

C'est un modèle non linéaire généralisé.

Glen_b -Reinstate Monica
la source
Merci pour votre contribution. C'est ce que j'essaie de comprendre. Évidemment, «linéaire» est au nom des GLM. J'essaie de classer ces modèles qui sont intrinsèquement non linéaires (ils sont non linéaires dans les paramètres), mais "transformablement linéaires", et tombent donc dans le cadre GLM. Je suppose que je viens de répondre à ma propre question - la meilleure façon de s'y référer est "transformable non linéaire".
Meg
1
La manière la plus courante de se référer à un modèle qui peut être rendu linéaire dans les paramètres par une transformation est "linéarisable" (par opposition à "non linéaire"). Je pense que nous devons être clairs sur ce qui est linéaire (par rapport à ce qui n'est pas linéaire) lorsque nous discutons du modèle, et peut-être aussi être clair sur la façon dont ces choses sont classiquement désignées, car les gens doivent pouvoir localiser les informations et être compris lors de leur discussion. Quelqu'un qui parle de GLM comme "non linéaire" est susceptible d'être mal compris, à moins qu'il n'ajoute les qualificatifs corrects qui clarifient leur signification.
Glen_b -Reinstate Monica
Je suis d'accord. Je le vois juste classifié comme régression non linéaire dans les textes et mes professeurs m'ont également enseigné que c'est non linéaire. Personnellement, je trouve cela déroutant puisque nous traitons avec cela dans le cadre GLM, mais je peux (en quelque sorte, au moins) sympathiser avec l'appeler non plus. Je pense que je vais avec linéarisable / transformable linéaire et une discussion sur la façon dont nous passons du point A au point B (c'est-à-dire, comment nous commençons avec une fonction non linéaire et la transformons en cadre linéaire).
Meg
Oui, je comprends parfaitement. Bien que j'insiste également sur leur envie de le faire, si j'avais leur oreille, je les mettrais en garde contre la pratique de les appeler des modèles non linéaires (du moins pas sans toujours qualifier le terme), pour les raisons que j'ai décrites ci-dessus. C'est une grande partie de la raison pour laquelle je pense que c'est une question si importante - les gens les appellent parfois non linéaires, ce qui, je pense, est correct tant que nous savons clairement ce que nous appelons non linéaire, car ce n'est pas la façon la plus conventionnelle de se référer aux modèles - lorsque nous défions la convention, nous devons le faire avec soin et délibérément.
Glen_b -Reinstate Monica