J'effectue une régression de Poisson dans le but final de comparer (et de prendre la différence de) les comptes moyens prévus entre deux niveaux de facteurs dans mon modèle: , tout en maintenant d'autres covariables du modèle (qui sont toutes binaires) constantes. Je me demandais si quelqu'un pouvait fournir des conseils pratiques sur le moment d'utiliser un lien de journal par rapport à un lien d'identité. Quels sont les avantages de ces deux fonctions de liaison différentes dans la régression de Poisson, étant donné mon objectif de comparer les différences?
J'ai également le même objectif en tête pour une régression logistique / binomiale (utiliser un lien logit ou un lien d'identité) pour comparer la différence de proportions entre deux niveaux de facteurs et j'ai besoin de conseils similaires. J'ai lu certains des articles ici qui traitent de ce problème, mais aucun ne semble expliquer pourquoi ou quand l'un pourrait choisir un lien plutôt que l'autre et quels pourraient être les avantages / inconvénients. Merci d'avance pour votre aide!
MISE À JOUR:
Je me rends également compte que le but principal de l'utilisation de certaines fonctions de liens est de restreindre la plage de plage des valeurs prédites possibles à la plage de la réponse moyenne (par exemple, pour la logistique, la plage est limitée entre 0 et 1 et pour le journal lien, les prévisions sont limitées à des nombres positifs). Donc, je suppose que ce que je demande, c'est que si j'utilise un lien d'identité, par exemple une régression logistique / binomiale, et que mes résultats se situent dans la plage (0,1), est-il vraiment nécessaire d'utiliser une fonction de lien logistique ou pourrais-je simplement simplifier la réflexion et utiliser un lien d'identité?
la source
Réponses:
Les inconvénients d'un lien d'identité dans le cas de la régression de Poisson sont:
Mais, finalement, c'est une question empirique. Convient aux deux modèles. Effectuez les vérifications que vous souhaitez. Si le lien d'identité a un AIC inférieur et fait aussi bien ou mieux sur tous vos autres contrôles, exécutez-le avec le lien d'identité.
Dans le cas du modèle logit par rapport au modèle de probabilité linéaire (c'est-à-dire ce que vous appelez le lien d'identité), la situation est beaucoup plus simple. À l'exception de quelques cas très exotiques en économétrie (que vous trouverez si vous effectuez une recherche), le modèle logit est meilleur: il fait moins d'hypothèses et est ce que la plupart des gens utilisent. Utiliser le modèle de probabilité linéaire à sa place reviendrait à être pervers.
En ce qui concerne l'interprétation des modèles, si vous utilisez R, il y a deux super packages qui feront tout le gros du travail: les effets , qui est super facile à utiliser, et zelig , qui est plus difficile à utiliser mais génial si vous voulez faire des prédictions .
la source
Dans le cas des modèles de Poisson, je dirais également que l'application dicte souvent si vos covariables agiraient de manière additive (ce qui impliquerait alors un lien d'identité) ou multiplicative sur une échelle linéaire (ce qui impliquerait alors un lien logarithmique). Mais les modèles de Poisson avec un lien d'identité n'ont normalement de sens et ne peuvent être ajustés de manière stable que si l'on impose des contraintes de non négativité aux coefficients ajustés - cela peut être fait en utilisant la
nnpois
fonction dans leaddreg
package R ou en utilisant lannlm
fonction dans leNNLM
paquet. Je ne suis donc pas d'accord pour dire que l'on devrait adapter les modèles de Poisson à la fois à une identité et à un lien de log et voir lequel finit par avoir le meilleur AIC et inférer le meilleur modèle basé sur des motifs purement statistiques - plutôt, dans la plupart des cas, il est dicté par le structure sous-jacente du problème que l'on essaie de résoudre ou des données disponibles.Par exemple, en chromatographie (analyse GC / MS), on mesure souvent le signal superposé de plusieurs pics de forme gaussienne approximative et ce signal superposé est mesuré avec un multiplicateur d'électrons, ce qui signifie que le signal mesuré est le nombre d'ions et donc la distribution de Poisson. Étant donné que chacun des pics a par définition une hauteur positive et agit de manière additive et que le bruit est Poisson, un modèle de Poisson non négatif avec lien d'identité serait approprié ici, et un modèle de Poisson à lien log serait tout à fait faux. En ingénierie, la perte de Kullback-Leibler est souvent utilisée comme fonction de perte pour de tels modèles, et minimiser cette perte équivaut à optimiser la probabilité d'un modèle de Poisson à lien d'identité non négatif (il existe également d'autres mesures de divergence / perte comme la divergence alpha ou bêta qui ont Poisson comme cas particulier).
Vous trouverez ci-dessous un exemple numérique, comprenant une démonstration qu'un lien d'identité non contraint régulier Poisson GLM ne correspond pas (en raison du manque de contraintes de non-négativité) et quelques détails sur la façon d'adapter les modèles de Poisson à lien d'identité non négatifs en utilisant
nnpois
, ici dans le contexte de la déconvolution d'une superposition mesurée de pics chromatographiques avec du bruit de Poisson sur eux en utilisant une matrice de covariables en bandes qui contient des copies décalées de la forme mesurée d'un seul pic. La non négativité ici est importante pour plusieurs raisons: (1) c'est le seul modèle réaliste pour les données disponibles (les pics ici ne peuvent pas avoir des hauteurs négatives), (2) c'est le seul moyen d'ajuster de manière stable un modèle de Poisson avec un lien d'identité (comme sinon, les prédictions pourraient devenir négatives pour certaines valeurs de covariables, ce qui n'aurait pas de sens et poserait des problèmes numériques lorsque l'on tenterait d'évaluer la probabilité), (3) la non négativité agit pour régulariser le problème de régression et aide grandement à obtenir des estimations stables (par exemple vous n'obtenez généralement pas les problèmes de surajustement comme avec la régression ordinaire sans contrainte,les contraintes de non négativité entraînent des estimations plus clairsemées qui sont souvent plus proches de la vérité du terrain; pour le problème de déconvolution ci-dessous, par exemple, les performances sont à peu près aussi bonnes que la régularisation LASSO, mais sans qu'il soit nécessaire de régler un paramètre de régularisation. (La régression pénalisée L0-pseudonorm fonctionne toujours légèrement mieux mais à un coût de calcul plus élevé )la source