Mesure de la variance expliquée pour le GLM de Poisson (fonction log-link)

8

Je recherche une mesure appropriée de la "variance expliquée" d'un GLM de Poisson (en utilisant une fonction log-link).

J'ai trouvé un certain nombre de ressources différentes (à la fois sur ce site et ailleurs) qui discutent d'un certain nombre de différentes mesures pseudo- , mais presque tous les sites mentionnent les mesures en relation avec une fonction de lien logit, et ils ne le font pas discuter si les mesures pseudo- sont appropriées pour d'autres fonctions de liaison, comme le log-link pour ma distribution GLM de Poission.R2R2

Par exemple, voici quelques-uns des sites que j'ai trouvés:

Quelle mesure de pseudo- est celle à déclarer pour la régression logistique (Cox & Snell ou Nagelkerke)?R2

http://thestatsgeek.com/2014/02/08/r-squared-in-logistic-regression/

http://www.ats.ucla.edu/stat/mult_pkg/faq/general/Psuedo_RSquareds.htm

Ma question est la suivante: l'une des méthodes discutées sur ces liens (en particulier, la FAQ sur la page UCLA) est-elle appropriée pour un GLM Poission (en utilisant une fonction de lien de journal)? Une méthode particulière est-elle plus appropriée et / ou utilisée de manière standard que toute autre méthode?

Quelques antécédents:

Ceci est pour un document de recherche dans lequel j'utilise un GLM Poission pour analyser les données neuronales. J'utilise les déviations des modèles (calculées en supposant une distribution de Poission) pour comparer deux modèles: Un modèle (A) qui comprend 5 paramètres qui ont été exclus de l'autre modèle (B). Mon intérêt (et l'objectif de l'article) est de montrer que ces 5 paramètres améliorent statistiquement l'ajustement du modèle. Cependant, l'un des examinateurs aimerait savoir dans quelle mesure les deux modèles correspondent aux données.

Si j'utilisais OLS pour ajuster mes données, le réviseur demande effectivement la valeur pour le modèle avec les 5 paramètres et sans les 5 paramètres, pour indiquer dans quelle mesure l'un ou l'autre modèle explique la variance. Cela me semble une demande raisonnable. Disons que, hypothétiquement, le modèle B a un de 0,05 et le modèle A a un de 0,25: même si cela peut être une amélioration statistiquement significative, aucun des deux modèles n'explique bien les données. Alternativement, si le modèle B a un de 0,5 et le modèle A a un de 0,7, cela pourrait être interprété de manière très différente. Je recherche la mesure la plus appropriée pouvant être appliquée de manière similaire à mon GLM.R2R2R2R2R2

Benjamin Kraus
la source
Pourquoi un BIC ne fonctionnerait-il pas ou ne testerait-il pas la différence des log-vraisemblances, d'autant plus que l'un est une version imbriquée de l'autre?
Mike Hunter
C'est un peu tard pour mes besoins (le document a été publié en ligne mercredi dernier), mais pour mémoire: j'utilise la différence dans les log-vraisemblances comme mesure principale, mais un examinateur voulait une mesure de la "variance expliquée" , donc dans l'intérêt d'apaiser les critiques, j'ai essayé de trouver quelque chose. Je me suis retrouvé avec quelque chose comme ce que Nukimov a suggéré ci-dessous.
Benjamin Kraus

Réponses:

1

McCullagh et Nelder 1989 (page 34) donnent pour la fonction de déviance pour la distribution de Poisson:D

D=2(ylog(yμ)+(yμ))

où y représente vos données et votre sortie modélisée. J'utilise cette fonction pour estimer la déviance expliquée d'un GLM avec une distribution de Poisson comme ceci:μED

ED=1Dtotal deviance

où la déviance totale est donnée par la même équation pour mais en utilisant la moyenne de (un seul nombre, c'est-à-dire ) au lieu du tableau d'estimations modélisées .Dymean(y)μ

Je ne sais pas si c'est 100% correct, cela me semble logique et semble fonctionner comme vous vous attendez à ce qu'une estimation de la déviance expliquée fonctionne (cela vous donne 1 si vous utilisez , etc.).μ=y

nukimov
la source
1
J'ai utilisé la fonction de déviance comme mesure principale pour le papier, en utilisant exactement l'équation que vous avez fournie ci-dessus. Cependant, un critique voulait une mesure de la "variance expliquée", donc dans l'intérêt d'apaiser les critiques, j'ai essayé de trouver quelque chose. Je me suis retrouvé avec: est la log-vraisemblance d'un modèle saturé, est la log-vraisemblance du modèle nul, et est la log-vraisemblance de la modèle en question.
pseudoRM2=ln(ΓM)ln(ΓNull)ln(ΓSat)ln(ΓNull)
ln(ΓSat)ln(ΓNull)ln(ΓM)
Benjamin Kraus