Qu'est-ce que le thêta dans une régression binomiale négative équipée de R?

26

J'ai une question concernant une régression binomiale négative: supposons que vous ayez les commandes suivantes:

require(MASS)
attach(cars)
mod.NB<-glm.nb(dist~speed)
summary(mod.NB)
detach(cars)

(Notez que les voitures sont un ensemble de données qui est disponible dans R, et je ne me soucie pas vraiment si ce modèle a du sens.)

Ce que j'aimerais savoir, c'est: Comment puis-je interpréter la variable theta(telle que renvoyée au bas d'un appel à summary). Est-ce le paramètre de forme de la distribution negbin et est-il possible de l'interpréter comme une mesure d'asymétrie?

MarkDollar
la source
Un résumé de ce que dit MASS est ici .
Scortchi - Réintégrer Monica

Réponses:

17

Oui, thetac'est le paramètre de forme de la distribution binomiale négative, et non, vous ne pouvez pas vraiment l'interpréter comme une mesure d'asymétrie. Plus précisément:

  • l'asymétrie dépendra de la valeur de theta, mais aussi de la moyenne
  • il n'y a aucune valeur thetaqui vous garantira un manque de biais

Si je ne l'ai pas gâché, dans la mu/ thetaparamétrisation utilisée dans la régression binomiale négative, l'asymétrie est

Skew(NB)=θ+2μθμ(θ+μ)=1+2μθμ(1+μθ)

Dans ce contexte, est généralement interprété comme une mesure de surdispersion par rapport à la distribution de Poisson. La variance du binôme négatif est , donc contrôle vraiment la variabilité excédentaire par rapport à Poisson (qui serait ), et non le biais.θμ+μ2/θθμ

Aniko
la source
merci jusqu'ici! C'est une bonne aide ... Mais: Comment puis-je interpréter des valeurs élevées ou (faibles) de thêta? Dans le livre McCaullaughs modèles linéaires généralisés, il y a un lien vers cet article d'anscombe pour faire une interprétation de k. Mais malheureusement, je ne comprends pas vraiment. L'article est claremontmckenna.edu/facultysites/math/FacMember/MOneill/…
MarkDollar
Il suffit de lire la première page. Donc thêta (ou k dans anscombe) est le paramètre de forme de la distribution negbin et il gère, si la distribution est plus proche de gamma (k -> 0) ou poisson (k -> infinity). Mais qu'est-ce que cela signifie pour l'ajustement? Comment puis-je interpréter le thêta par exemple pour l'estimation des voitures?
MarkDollar
33

Un de mes étudiants m'a référé à ce site dans le cadre de mon cours Modelling Count Data . Il semble y avoir beaucoup de désinformation sur le modèle binomial négatif, et en particulier en ce qui concerne la statistique de dispersion et le paramètre de dispersion.

La statistique de dispersion, qui donne une indication de l'extra-dispersion du modèle de comptage, est la statistique de Pearson divisée par la DOF résiduelle. est le paramètre d'emplacement ou de forme. Pour les modèles de comptage, le paramètre d'échelle est fixé à 1. Le R et est un paramètre de dispersion, ou paramètre auxiliaire. Je l'ai appelé le paramètre d'hétérogénéité dans la première édition de mon livre, Negative Binomial Regression (2007, Cambridge University Press), mais je l'appelle le paramètre de dispersion dans ma deuxième édition de 2011. Je donne une justification complète des différents termes du modèle NB dans mon prochain livre, Modeling Count Data (Cambridge), qui va être publié aujourd'hui. Il devrait être en vente (livre de poche) d'ici le 15 juillet. θμglmglm.nb θ

glm.nbet glmsont inhabituels dans la façon dont ils définissent le paramètre de dispersion. La variance est donnée sous la forme plutôt que , qui est la paramétrisation directe. C'est la façon dont NB est modélisé dans SAS, Stata, Limdep, SPSS, Matlab, Genstat, Xplore et la plupart des logiciels. Lorsque vous comparez les résultats avec d'autres résultats logiciels, n'oubliez pas ceci. L'auteur de (qui venait de S-plus) et μ+αμ2μ+μ2θμ+αμ2glm.nbglmglm.nba apparemment pris la relation indirecte de McCullagh & Nelder, mais Nelder (qui était le co-fondateur de GLM en 1972) a écrit son complément de système kk à Genstat en 1993 dans lequel il a soutenu que la relation directe est préférée. Lui et sa femme avaient l'habitude de me rendre visite à moi et à ma famille environ tous les deux ans en Arizona à partir du début de 1993 jusqu'à l'année avant sa mort. Nous en avons discuté assez longuement, car j'avais mis en relation directe le programme glm que j'avais écrit fin 1992 pour les logiciels Stata et Xplore, et pour une macro SAS en 1994.

La nbinomialfonction du package msme sur CRAN permet à l'utilisateur d'utiliser le paramétrage direct (par défaut) ou indirect (en option, pour dupliquer glm.nb) et fournit la statistique Pearson et les résidus à afficher. La sortie affiche également la statistique de dispersion et permet à l'utilisateur de paramétrer (ou ), donnant des estimations de paramètres pour la dispersion. Cela vous permet d'évaluer quels prédicteurs ajoutent à l'extra-dispersion du modèle. Ce type de modèle est généralement appelé binôme négatif hétérogène. Je mettrai la fonction dans le paquet COUNT avant la sortie du nouveau livre, ainsi qu'un certain nombre de nouvelles fonctions et scripts pour les graphiques. θαθnbinomial

Joseph Hilbe
la source
2
Merci pour cette précision. Je suppose qu'un problème pour ce malentendu vient de la sortie R du type où il est écrit "(paramètre de dispersion pour la famille binomiale négative (thêta) pris pour être 1)". Ici, la dispersion fait référence au dans , que vous semblez appeler échelle. Tant de gens choisissent d'appeler le différemment. Également dérivé de la fonction R, j'ai eu tendance à appeler location et "forme" - cette dernière que je ne trouve pas déraisonnable car elle influence certainement la forme. c o v ( β ) = φ ( X T ^ W X ) - 1 & thetav um & thetavϕcov(β^)=ϕ(XTŴ^X)1θμθ
Momo
Quelle est la gamme de thêta? Thêta doit-il avoir une valeur supérieure à un?
News_is_Selection_Bias
2

binôme de référence glm négatif: entrez la description de l'image ici

Le «r» binomial négatif de Wikipedia est le «thêta» de glm, ce qui implique que le «thêta» de glm est le paramètre de forme. En termes simples, le «thêta» de glm est le nombre d'échecs.

datageek
la source