Pourquoi les résidus de Pearson d'une régression binomiale négative sont-ils plus petits que ceux d'une régression de poisson?

9

J'ai ces données:

set.seed(1)
predictor  <- rnorm(20)
set.seed(1)
counts <- c(sample(1:1000, 20))
df <- data.frame(counts, predictor)

J'ai couru une régression de poisson

poisson_counts <- glm(counts ~ predictor, data = df, family = "poisson")

Et une régression binomiale négative:

require(MASS)
nb_counts <- glm.nb(counts ~ predictor, data = df)

Ensuite, j'ai calculé les statistiques de dispersion pour la régression du poisson:

sum(residuals(poisson_counts, type="pearson")^2)/df.residual(poisson_counts)

# [1] 145.4905

Et la régression binomiale négative:

sum(residuals(nb_counts, type="pearson")^2)/df.residual(nb_counts)

# [1] 0.7650289

Quelqu'un peut-il expliquer, SANS UTILISER D'ÉQUATIONS, pourquoi la statistique de dispersion pour la régression binomiale négative est considérablement plus petite que la statistique de dispersion pour la régression poisson?

luciano
la source

Réponses:

9

C'est assez simple, mais le «sans utiliser d'équations» est un handicap important. Je peux l'expliquer avec des mots, mais ces mots refléteront nécessairement des équations. J'espère que ce sera acceptable / encore d'une certaine valeur pour vous. (Les équations pertinentes ne sont pas difficiles.)

Il existe plusieurs types de résidus. Les résidus bruts sont simplement la différence entre les valeurs de réponse observées (dans votre cas, le counts) et les valeurs de réponse prédites du modèle. Les résidus de Pearson divisent ceux-ci par l'écart type (la racine carrée de la fonction de variance pour la version particulière du modèle linéaire généralisé que vous utilisez).

L'écart type associé à la distribution de Poisson est inférieur à celui du binôme négatif . Ainsi, lorsque vous divisez par un plus grand dénominateur, le quotient est plus petit.

De plus, le binôme négatif est plus adapté à votre cas, car votre countstestament sera distribué en uniforme dans la population. Autrement dit, leur variance ne sera pas égale à leur moyenne.

gung - Réintégrer Monica
la source
4
Bien que le PO demande une explication non mathématique, il serait quand même bien de voir une justification mathématique (ou une justification aussi rigoureuse et claire) de cette réponse. À la lecture de la question, mon intuition était que "parce que le Poisson est un cas spécial (limitant) du NB et que le NB a plus de paramètres, il y a plus de flexibilité dans l'ajustement, donc bien sûr, toute mesure raisonnable des résidus ne devrait pas augmenter lors du remplacement un GLM Poisson par un GLM NB. " Je me demande si une telle intuition était vraiment correcte.
whuber
Si , . Si , et . Ainsi, une variance de Poisson est égale à la moyenne, une variance NegBin est supérieure à la moyenne ( ). C'est pourquoi "l'écart type associé à la distribution de Poisson est plus petit que celui du binôme négatif". E [ X ] = V [ X ] = λ X NegBin ( r , p ) E [ X ] = p r / ( 1 - p ) V [ X ] = p r / ( 1 - p ) 2 ) 2 < ( 1 - p )XPoisson(λ)E[X]=V[X]=λXNegBin(r,p)E[X]=pr/(1p)V[X]=pr/(1p)2p<1(1p)2<(1p)
Sergio
3
@Sergio Le nœud du problème, cependant, est que dans le modèle de Poisson, nous travaillons avec l' estimation plutôt que lui-même et dans le modèle NB, nous travaillons de la même manière avec deux estimations et . Votre comparaison ne s'applique donc pas directement. Sans écrire réellement les formules pour les MLE dans les deux modèles, il n'est pas du tout évident quelles doivent être les relations entre ces ensembles d'estimations. De plus, le résidu de Pearson est un rapport et l'argument sur les variances ne concerne que les dénominateurs, ce qui ne représente que la moitié de l'histoire. X r pλ^λr^p^
whuber
Les estimations MLE sont cohérentes. Le problème est que lorsque, comme le dit Gung, "les chiffres seront distribués comme un uniforme dans la population. C'est-à-dire que leur variance ne sera pas égale à leur moyenne", vous ne pourrez jamais obtenir une variance de Poisson estimée plus grande qu'une estimation Poisson moyen, même si vos estimations sont non biaisées et cohérentes. C'est un problème de mauvaise spécification.
Sergio
5

Pour le modèle de Poisson, si l'espérance pour la ème observation est sa variance est , et le résidu de Pearson doncY i μ i μ iiYiμiμi

yiμ^iμ^i

où est l'estimation de la moyenne. La paramétrisation du modèle binomial négatif utilisé dans MASS est expliquée ici . Si l'espérance pour la ème observation est sa variance est , et le résidu de Pearson donc iYiμiμi+μ2μ^iYiμiμi+μ2θ

yiμ~iμ~i+μ~2θ

où est l'estimation de la moyenne. Plus la valeur de - c'est-à-dire plus de variance extra-Poisson - est petite, plus le résidu est petit par rapport à son équivalent de Poisson. [Mais comme @whuber l'a souligné, les estimations des moyennes ne sont pas les mêmes, , car la procédure d'estimation pondère les observations en fonction de leur variance supposée. Si vous deviez faire des mesures répétées pour le ème modèle de prédicteur, elles se rapprocheraient, et en général, l'ajout d'un paramètre devrait donner un meilleur ajustement à toutes les observations, bien que je ne sache pas comment le démontrer rigoureusement. Néanmoins, les quantités de population que vous estimez sont plus grandes si le modèle de Poisson tient, donc cela ne devrait pas être une surprise.] & thetav μ ~ μ iμ~θμ^μ~i

Scortchi - Réintégrer Monica
la source
1
Merci d'avoir présenté certaines équations. Mais les des deux modèles auront-ils les mêmes valeurs? (Je ne pense pas.) Sinon, comment est-il alors possible de comparer les deux résidus Pearson? μi
whuber
@whuber Dans ce cas, il s'avère que les valeurs ajustées pour les deux modèles sont presque identiques. Après tout, le "vrai" modèle a vraiment une interception et modélise essentiellement la moyenne car il n'y a pas de relation entre x et Y dans la simulation.
jsk
1
@jsk Oui, j'ai regardé les données et exécuté le code. (BTW, il est possible de modifier les données et d'obtenir essentiellement la même statistique de dispersion pour les deux modèles.) Hélas, votre argument, qui est valide, ne règle toujours pas la question spécifique ni ne répond à la question générale (implicite) concernant comparer les résidus de Poisson aux résidus NB, car les variances estimées pourraient également être presque identiques. Un aspect potentiellement déroutant de la présente réponse est l'utilisation du symbole " " pour désigner ce qui (en principe) pourrait être des estimations différentes dans deux modèles des mêmes données. μi
whuber
1
@whuber En effet, vous avez des points valables sur l'utilisation de . Fait intéressant, je n'arrive pas à trouver un moyen de simuler des données qui entraîneraient une statistique de dispersion plus faible pour Poisson que pour NB. Ce n'est peut-être pas possible? Je suis d'accord que cela a un sens intuitivement. Pas facile à prouver car il n'existe pas de solution de forme fermée pour le mle lorsque vous avez un glm avec une fonction de lien autre que l'identité. Mais oui, il est facile de rendre les deux statistiques de dispersion très similaires. μi
jsk
1
@jsk - un argument théorique pour soupçonner qu'un modèle NB s'adaptera toujours mieux que Poisson, est que vous pouvez écrire NB comme une distribution composée de poisson-gamma. Vous avez donc puis donne un modèle binomial négatif . Maintenant, l'ajout de ces paramètres permet au modèle de rapprocher la moyenne prédite de la valeur observée (lorsque vous , ce qui réduit le résiduel.)(yi|λ,vi,r)Poisson(λvi)(vi|λ,r)Gamma(r,r)viyi>λvi>1(yi|λ,r)NB(r,λr+λ)viyi>λvi>1
Probabilogic