dispersion in summary.glm ()

13

J'ai dirigé un glm.nb par

glm1<-glm.nb(x~factor(group))

avec groupe étant une catégorie et x une variable métrique. Lorsque j'essaie d'obtenir le résumé des résultats, j'obtiens des résultats légèrement différents, selon que j'utilise summary()ou summary.glm. summary(glm1)Donne moi

    ...
Coefficients:
                    Estimate Std. Error z value Pr(>|z|)  
    (Intercept)       0.1044     0.1519   0.687   0.4921  
    factor(gruppe)2   0.1580     0.2117   0.746   0.4555  
    factor(gruppe)3   0.3531     0.2085   1.693   0.0904 .
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

    (Dispersion parameter for Negative Binomial(0.7109) family taken to be 1)

alors que summary.glm (glm1) me donne

    ...
Coefficients:
                    Estimate Std. Error t value Pr(>|t|)  
    (Intercept)       0.1044     0.1481   0.705   0.4817  
    factor(gruppe)2   0.1580     0.2065   0.765   0.4447  
    factor(gruppe)3   0.3531     0.2033   1.737   0.0835 .
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

    (Dispersion parameter for Negative Binomial(0.7109) family taken to be 0.9509067)

Je comprends la signification du paramètre de dispersion, mais pas de la ligne

(Dispersion parameter for Negative Binomial(0.7109) family taken to be 0.9509067).

Dans le manuel, il est dit que ce serait la dispersion estimée, mais cela semble être une mauvaise estimation, car 0,95 n'est pas proche de 0,7109, ou la dispersion estimée est-elle quelque chose de différent du paramètre de dispersion estimé? Je suppose que je dois régler la dispersion dans summary.nb(x, dispersion=)quelque chose, mais je ne suis pas sûr, si je dois régler la dispersion sur 1 (ce qui donnera le même résultat que summary()si je devais insérer une estimation du paramètre de dispersion, dans ce cas à menais summary.nb(glm1, dispersion=0.7109)ou quelque chose d' autre? ou suis - je bien avec juste en utilisant le summary(glm1)?

Renoir Pulitz
la source
2
Utilisez summary () car il distribue la méthode S3 appropriée pour la classe negbin. La dispersion doit bien sûr être 1, ce qui est estimé est le thêta, qui est mieux appelé un paramètre de forme pour éviter toute confusion. Voir aussi stats.stackexchange.com/questions/27773/how-does-glm-nb-work/…
Momo

Réponses:

13

summary.glm"negbin"summary.glmdispersionsummary.glm glmϕϕfamilyglm.nb"Negative Binomial(theta)"summary.glmsur le modèle monté par glm.nb, le code en

if (is.null(dispersion)) 
    dispersion <- if (object$family$family %in% c("poisson", 
        "binomial")) 
        1
    else if (df.r > 0) {
        est.disp <- TRUE
        if (any(object$weights == 0)) 
                warning("observations with zero weight not used for calculating dispersion")
            sum((object$weights * object$residuals^2)[object$weights > 
            0])/df.r
    }

"poisson""binomial"ϕsummary.negbin

ϕdispersion

Deuxièmement, vous comprenez mal la sortie. Quand tu vois

Negative Binomial(0.7109)

θ^ϕ

ϕϕ=1summary.negbin

summary(glm1, dispersion = 0.9509)

negbinϕ

Réintégrer Monica - G. Simpson
la source
5
+1 Belle explication. J'ai deux petits commentaires: Le paramètre de dispersion en binôme, Poisson et binôme négatif avec paramètre de forme connu est 1 par définition de la famille exponentielle (ce n'est pas une hypothèse). Lorsque vous dites qu'une dispersion différente peut être estimée et fournie à la méthode récapitulative, alors il faut être prudent car on s'aventurerait dans un quasi territoire qui a des implications notamment pour la vraisemblance.
Momo
@Momo Bien dit. J'étais partagé entre ce que vous déclarez et les détails de la page d'aide pour les fonctions respectives.
Reinstate Monica - G. Simpson
2

θ1θ11θEYEμEμ

f(y)=Γ(θ+y)Γ(θ)y!μyθθ(μ+θ)θ+y

attente

EY=μ

& variance

VarY=μ+μ2θ

Comme le souligne @Momo, le paramètre de dispersion est une tout autre chose, que vous laisseriez varier pour effectuer une estimation de quasi-vraisemblance. Pour le modèle binomial négatif et le modèle (vrai) de Poisson, il est correctement fixé à une valeur de un.

Scortchi - Réintégrer Monica
la source