Je recherche une mesure appropriée de la "variance expliquée" d'un GLM de Poisson (en utilisant une fonction log-link).
J'ai trouvé un certain nombre de ressources différentes (à la fois sur ce site et ailleurs) qui discutent d'un certain nombre de différentes mesures pseudo- , mais presque tous les sites mentionnent les mesures en relation avec une fonction de lien logit, et ils ne le font pas discuter si les mesures pseudo- sont appropriées pour d'autres fonctions de liaison, comme le log-link pour ma distribution GLM de Poission.
Par exemple, voici quelques-uns des sites que j'ai trouvés:
http://thestatsgeek.com/2014/02/08/r-squared-in-logistic-regression/
http://www.ats.ucla.edu/stat/mult_pkg/faq/general/Psuedo_RSquareds.htm
Ma question est la suivante: l'une des méthodes discutées sur ces liens (en particulier, la FAQ sur la page UCLA) est-elle appropriée pour un GLM Poission (en utilisant une fonction de lien de journal)? Une méthode particulière est-elle plus appropriée et / ou utilisée de manière standard que toute autre méthode?
Quelques antécédents:
Ceci est pour un document de recherche dans lequel j'utilise un GLM Poission pour analyser les données neuronales. J'utilise les déviations des modèles (calculées en supposant une distribution de Poission) pour comparer deux modèles: Un modèle (A) qui comprend 5 paramètres qui ont été exclus de l'autre modèle (B). Mon intérêt (et l'objectif de l'article) est de montrer que ces 5 paramètres améliorent statistiquement l'ajustement du modèle. Cependant, l'un des examinateurs aimerait savoir dans quelle mesure les deux modèles correspondent aux données.
Si j'utilisais OLS pour ajuster mes données, le réviseur demande effectivement la valeur pour le modèle avec les 5 paramètres et sans les 5 paramètres, pour indiquer dans quelle mesure l'un ou l'autre modèle explique la variance. Cela me semble une demande raisonnable. Disons que, hypothétiquement, le modèle B a un de 0,05 et le modèle A a un de 0,25: même si cela peut être une amélioration statistiquement significative, aucun des deux modèles n'explique bien les données. Alternativement, si le modèle B a un de 0,5 et le modèle A a un de 0,7, cela pourrait être interprété de manière très différente. Je recherche la mesure la plus appropriée pouvant être appliquée de manière similaire à mon GLM.
la source
Réponses:
McCullagh et Nelder 1989 (page 34) donnent pour la fonction de déviance pour la distribution de Poisson:D
où y représente vos données et votre sortie modélisée. J'utilise cette fonction pour estimer la déviance expliquée d'un GLM avec une distribution de Poisson comme ceci:μ ED
où la déviance totale est donnée par la même équation pour mais en utilisant la moyenne de (un seul nombre, c'est-à-dire ) au lieu du tableau d'estimations modélisées .D y mean(y) μ
Je ne sais pas si c'est 100% correct, cela me semble logique et semble fonctionner comme vous vous attendez à ce qu'une estimation de la déviance expliquée fonctionne (cela vous donne 1 si vous utilisez , etc.).μ=y
la source