Quelle est la différence entre une "fonction de lien" et une "fonction de lien canonique" pour GLM

65

Quelle est la différence entre les termes "fonction de lien" et "fonction de lien canonique"? De plus, y a-t-il des avantages (théoriques) à utiliser l'un par rapport à l'autre?

Par exemple, une variable de réponse binaire peut être modélisée à l'aide de nombreuses fonctions de liaison telles que logit , probit , etc. Mais logit est considéré ici comme une fonction de liaison "canonique".

poisson stable
la source
10
Je discute longuement des fonctions de liaison ici: Différence entre les modèles logit et probit , en mettant l’accent sur la régression pour une variable de réponse binaire. Bien que seule une petite partie de cette discussion se concentre sur le sens du terme «canonique» d'une fonction de lien, il peut néanmoins être utile de le lire. Notez que pour comprendre la distinction b / t et avantages d'une fonction de lien canonique vs non canonique, il faut approfondir les connaissances mathématiques sous-jacentes à GLiM.
gung - Rétablir Monica

Réponses:

68

Les réponses ci-dessus sont plus intuitives, alors j'essaie plus de rigueur.

Qu'est-ce qu'un GLM?

Soit représentent un ensemble d'une réponse et de dimension vecteur covariable avec la valeur attendue . Pour observations indépendantes, la distribution de chaque est une famille exponentielle de densité Ici, le paramètre d'intérêt (paramètre naturel ou canonique) est , est un paramètre d'échelle (connu ou perçu comme une nuisance) et et sont fonctions connues. LeY=(y,x)ypx=(x1,,xp)E(y)=μi=1,,nyi

f(yi;θi,ϕ)=exp{[yiθiγ(θi)]/ϕ+τ(yi,ϕ)}
θiϕγτnLes vecteurs tridimensionnels de valeurs d'entrée fixes pour les variables explicatives sont désignés par . Nous supposons que les vecteurs d'entrée influencent (1) uniquement via une fonction linéaire, le prédicteur linéaire, dont dépend . Comme on peut montrer que , cette dépendance est établie en reliant le prédicteur linéaire et via la moyenne. Plus spécifiquement, la moyenne est vue comme une fonction inversible et lisse du prédicteur linéaire, c'est-à-dire px1,,xp
ηi=β0+β1xi1++βpxip
θiθ=(γ)1(μ)ηθμ
g(μ)=η or μ=g1(η)
Maintenant pour répondre à votre question:

La fonction est appelée la fonction de liaison. Si la fonction connecte , et telle sorte que , ce lien est appelé canonique et a la forme .g()μηθηθg=(γ)1

C'est ça. Ensuite, il existe un certain nombre de propriétés statistiques souhaitables d'utilisation du lien canonique, par exemple, la statistique suffisante est avec les composantes pour , la méthode de Newton et les scores de Fisher pour En trouvant que l'estimateur ML coïncide, ces liens simplifient la dérivation de la MLE, ils assurent que certaines propriétés de la régression linéaire (par exemple, la somme des résidus est égale à 0) se maintiennent ou s'assurent que reste dans la plage de la variable de résultat .Xyixijyij=1,,pμ

Par conséquent, ils ont tendance à être utilisés par défaut. Notez cependant qu'il n'y a pas de raison a priori pour que les effets dans le modèle soient additifs sur l'échelle donnée par ce lien ou tout autre.

Momo
la source
5
+1, c'est une très bonne réponse, @Momo. J'ai trouvé certaines équations plus difficiles à lire lorsqu'elles étaient enterrées dans les paragraphes, alors je les ai «bloquées» en utilisant un double signe dollar ( $ $). J'espère que ça va (sinon, vous pouvez revenir en arrière, avec mes excuses).
gung - Rétablir Monica
1
@Momo, la question initiale ici, cependant, comprend ce que Wei a demandé, donc il vaut la peine de souligner qu'il n'a pas encore été clairement répondu.
Glen_b
1
J'espère que j'ai bien compris votre confusion: dans la famille exponentielle dont vous parlez, le paramètre canonique est et le lien canonique est quand qui est quand . Comme aussi (si vous calculez la valeur attendue de la première dérivée par rapport à de la fonction de vraisemblance), le seul cas où apparaît lorsque . θη=θg(μ)=θθ=(γ)1(μ)θθμg(.)=(γ)1(.)
Momo
1
Merci beaucoup. En reprenant l'exemple précédent, nous avons . D'où . Comme vous l'avez dit (je viens de reformuler), nous n'avons que si Est le lien canonique, qui est le logit. Ensuite, nous aurons . Donc, l'égalité entre et le prédicteur n'existe que si nous utilisons la fonction de lien canonique. γ(θ)=π=exp(θ)1+exp(θ)(γ)1(.)=logit(.)η=θg(.)θ=logit(π)=ηθη
Druss2k
2
Il semble qu'il y ait une faute de frappe dans la phrase clé de la réponse: ne faut-il pas lire "si la fonction connecte et st "? μθηθ
Leo Alekseyev
16

Gung a cité une bonne explication: le lien canonique possède des propriétés théoriques spéciales de suffisance minimale. Cela signifie que vous pouvez définir un modèle logit conditionnel (que les économistes appellent un modèle à effets fixes) en conditionnant le nombre de résultats, mais vous ne pouvez pas définir de modèle probit conditionnel car il n'y a pas suffisamment de statistiques à utiliser avec le lien probit.

StasK
la source
Pouvez-vous élaborer un peu sur la suffisance minimale? Par l'explication ci-dessus, nous pouvons toujours définir un modèle probit, non? Ce ne sera certainement pas la fonction de lien canonique, mais quel est le mal à utiliser une fonction de lien non canonique.
pikachuchameleon
9

Voici un petit diagramme inspiré de la classe 18.650 du MIT, que je trouve très utile car il permet de visualiser les relations entre ces fonctions. J'ai utilisé la même notation que dans le post de @ momo:

entrez la description de l'image ici

  • γ(θ) est la fonction générant le moment cumulant
  • g(μ) est la fonction de liaison

La fonction de liaison relie donc le prédicteur linéaire à la moyenne et doit être monotone croissante, continuellement différentiable et inversible.g

Le diagramme permet de passer facilement d’une direction à l’autre, par exemple:

η=g(γ(θ))
θ=γ1(g1(η))

Fonction de liaison canonique

Une autre façon de voir ce que Momo a décrit avec rigueur est que, lorsque est la fonction de lien canonique, la composition de fonction est l'identité et nous obtenons donc g

γ1g1=(gγ)1=I
θ=η
Xavier Bourret Sicotte
la source
1

Les réponses ci-dessus ont déjà couvert ce que je veux dire. Juste pour clarifier quelques points en tant que chercheur en apprentissage automatique:

  1. La fonction de liaison n’est que l’inverse de la fonction d’activation. Par exemple, logit est l'inverse de sigmoid, probit est l'inverse de la fonction de distribution cumulative de Gaussian.

  2. Si nous prenons le paramètre du modèle linéaire généralisé pour ne dépendre que de , avec étant le vecteur de pondération et comme entrée, alors la fonction de lien est appelée canonique.wTxwx

La discussion ci-dessus n'a rien à voir avec une famille exponentielle, mais une discussion intéressante peut être trouvée dans le livre PRML du chapitre 4.3.6 de Christopher Bishop.

Guojun Zhang
la source