Quelle est la différence entre les termes "fonction de lien" et "fonction de lien canonique"? De plus, y a-t-il des avantages (théoriques) à utiliser l'un par rapport à l'autre?
Par exemple, une variable de réponse binaire peut être modélisée à l'aide de nombreuses fonctions de liaison telles que logit , probit , etc. Mais logit est considéré ici comme une fonction de liaison "canonique".
logistic
generalized-linear-model
link-function
poisson stable
la source
la source
Réponses:
Les réponses ci-dessus sont plus intuitives, alors j'essaie plus de rigueur.
Qu'est-ce qu'un GLM?
Soit représentent un ensemble d'une réponse et de dimension vecteur covariable avec la valeur attendue . Pour observations indépendantes, la distribution de chaque est une famille exponentielle de densité Ici, le paramètre d'intérêt (paramètre naturel ou canonique) est , est un paramètre d'échelle (connu ou perçu comme une nuisance) et et sont fonctions connues. LeY=(y,x) y p x=(x1,…,xp) E(y)=μ i=1,…,n yi
La fonction est appelée la fonction de liaison. Si la fonction connecte , et telle sorte que , ce lien est appelé canonique et a la forme .g(⋅) μ η θ η≡θ g=(γ′)−1
C'est ça. Ensuite, il existe un certain nombre de propriétés statistiques souhaitables d'utilisation du lien canonique, par exemple, la statistique suffisante est avec les composantes pour , la méthode de Newton et les scores de Fisher pour En trouvant que l'estimateur ML coïncide, ces liens simplifient la dérivation de la MLE, ils assurent que certaines propriétés de la régression linéaire (par exemple, la somme des résidus est égale à 0) se maintiennent ou s'assurent que reste dans la plage de la variable de résultat .X′y ∑ixijyi j=1,…,p μ
Par conséquent, ils ont tendance à être utilisés par défaut. Notez cependant qu'il n'y a pas de raison a priori pour que les effets dans le modèle soient additifs sur l'échelle donnée par ce lien ou tout autre.
la source
Gung a cité une bonne explication: le lien canonique possède des propriétés théoriques spéciales de suffisance minimale. Cela signifie que vous pouvez définir un modèle logit conditionnel (que les économistes appellent un modèle à effets fixes) en conditionnant le nombre de résultats, mais vous ne pouvez pas définir de modèle probit conditionnel car il n'y a pas suffisamment de statistiques à utiliser avec le lien probit.
la source
Voici un petit diagramme inspiré de la classe 18.650 du MIT, que je trouve très utile car il permet de visualiser les relations entre ces fonctions. J'ai utilisé la même notation que dans le post de @ momo:
La fonction de liaison relie donc le prédicteur linéaire à la moyenne et doit être monotone croissante, continuellement différentiable et inversible.g
Le diagramme permet de passer facilement d’une direction à l’autre, par exemple:
Fonction de liaison canonique
Une autre façon de voir ce que Momo a décrit avec rigueur est que, lorsque est la fonction de lien canonique, la composition de fonction est l'identité et nous obtenons doncg
la source
Les réponses ci-dessus ont déjà couvert ce que je veux dire. Juste pour clarifier quelques points en tant que chercheur en apprentissage automatique:
La fonction de liaison n’est que l’inverse de la fonction d’activation. Par exemple, logit est l'inverse de sigmoid, probit est l'inverse de la fonction de distribution cumulative de Gaussian.
Si nous prenons le paramètre du modèle linéaire généralisé pour ne dépendre que de , avec étant le vecteur de pondération et comme entrée, alors la fonction de lien est appelée canonique.wTx w x
La discussion ci-dessus n'a rien à voir avec une famille exponentielle, mais une discussion intéressante peut être trouvée dans le livre PRML du chapitre 4.3.6 de Christopher Bishop.
la source