J'ai une question concernant une régression binomiale négative: supposons que vous ayez les commandes suivantes:
require(MASS)
attach(cars)
mod.NB<-glm.nb(dist~speed)
summary(mod.NB)
detach(cars)
(Notez que les voitures sont un ensemble de données qui est disponible dans R, et je ne me soucie pas vraiment si ce modèle a du sens.)
Ce que j'aimerais savoir, c'est: Comment puis-je interpréter la variable theta
(telle que renvoyée au bas d'un appel à summary
). Est-ce le paramètre de forme de la distribution negbin et est-il possible de l'interpréter comme une mesure d'asymétrie?
Réponses:
Oui,
theta
c'est le paramètre de forme de la distribution binomiale négative, et non, vous ne pouvez pas vraiment l'interpréter comme une mesure d'asymétrie. Plus précisément:theta
, mais aussi de la moyennetheta
qui vous garantira un manque de biaisSi je ne l'ai pas gâché, dans la
mu
/theta
paramétrisation utilisée dans la régression binomiale négative, l'asymétrie estDans ce contexte, est généralement interprété comme une mesure de surdispersion par rapport à la distribution de Poisson. La variance du binôme négatif est , donc contrôle vraiment la variabilité excédentaire par rapport à Poisson (qui serait ), et non le biais.θ μ+μ2/θ θ μ
la source
Un de mes étudiants m'a référé à ce site dans le cadre de mon cours Modelling Count Data . Il semble y avoir beaucoup de désinformation sur le modèle binomial négatif, et en particulier en ce qui concerne la statistique de dispersion et le paramètre de dispersion.
La statistique de dispersion, qui donne une indication de l'extra-dispersion du modèle de comptage, est la statistique de Pearson divisée par la DOF résiduelle. est le paramètre d'emplacement ou de forme. Pour les modèles de comptage, le paramètre d'échelle est fixé à 1. Le R et est un paramètre de dispersion, ou paramètre auxiliaire. Je l'ai appelé le paramètre d'hétérogénéité dans la première édition de mon livre, Negative Binomial Regression (2007, Cambridge University Press), mais je l'appelle le paramètre de dispersion dans ma deuxième édition de 2011. Je donne une justification complète des différents termes du modèle NB dans mon prochain livre, Modeling Count Data (Cambridge), qui va être publié aujourd'hui. Il devrait être en vente (livre de poche) d'ici le 15 juillet. θμ θ
glm
glm.nb
glm.nb
etglm
sont inhabituels dans la façon dont ils définissent le paramètre de dispersion. La variance est donnée sous la forme plutôt que , qui est la paramétrisation directe. C'est la façon dont NB est modélisé dans SAS, Stata, Limdep, SPSS, Matlab, Genstat, Xplore et la plupart des logiciels. Lorsque vous comparez les résultats avec d'autres résultats logiciels, n'oubliez pas ceci. L'auteur de (qui venait de S-plus) et μ+αμ2glm.nb
glm
glm.nb
a apparemment pris la relation indirecte de McCullagh & Nelder, mais Nelder (qui était le co-fondateur de GLM en 1972) a écrit son complément de système kk à Genstat en 1993 dans lequel il a soutenu que la relation directe est préférée. Lui et sa femme avaient l'habitude de me rendre visite à moi et à ma famille environ tous les deux ans en Arizona à partir du début de 1993 jusqu'à l'année avant sa mort. Nous en avons discuté assez longuement, car j'avais mis en relation directe le programme glm que j'avais écrit fin 1992 pour les logiciels Stata et Xplore, et pour une macro SAS en 1994.Laα θ
nbinomial
fonction du package msme sur CRAN permet à l'utilisateur d'utiliser le paramétrage direct (par défaut) ou indirect (en option, pour dupliquer glm.nb) et fournit la statistique Pearson et les résidus à afficher. La sortie affiche également la statistique de dispersion et permet à l'utilisateur de paramétrer (ou ), donnant des estimations de paramètres pour la dispersion. Cela vous permet d'évaluer quels prédicteurs ajoutent à l'extra-dispersion du modèle. Ce type de modèle est généralement appelé binôme négatif hétérogène. Je mettrai la fonction dans le paquet COUNT avant la sortie du nouveau livre, ainsi qu'un certain nombre de nouvelles fonctions et scripts pour les graphiques. θnbinomial
la source
binôme de référence glm négatif:
Le «r» binomial négatif de Wikipedia est le «thêta» de glm, ce qui implique que le «thêta» de glm est le paramètre de forme. En termes simples, le «thêta» de glm est le nombre d'échecs.
la source