Modélisation paramétrique de la variance des données de comptage

12

Je cherche à modéliser certaines données, mais je ne sais pas quel type de modèle je peux utiliser. J'ai des données de comptage et je veux un modèle qui donnera des estimations paramétriques de la moyenne et de la variance des données. Autrement dit, j'ai divers facteurs prédictifs et je veux déterminer si l'un d'entre eux influence la variance (pas seulement la moyenne du groupe).

Je sais que la régression de Poisson ne fonctionnera pas parce que la variance est égale à la moyenne; cette hypothèse n'est pas valable dans mon cas, donc je sais qu'il y a surdispersion. Cependant, un modèle binomial négatif ne génère qu'un seul paramètre de surdispersion, pas un paramètre qui est fonction des prédicteurs du modèle. Quel modèle peut le faire?

De plus, une référence à un livre ou à un article qui traite du modèle et / ou d'un package R qui implémente le modèle serait appréciée.

Brian Diggs
la source
1
Comment savez-vous qu'il y a surdispersion sans d'abord faire la régression de Poisson? Après tout, comparer la variance des valeurs brutes (réponse) à leur moyenne n'est pas pertinent: ce qui compte, c'est la qualité de l'ajustement du modèle de Poisson (c'est l'analogue de l'évaluation de la distribution des résidus dans un modèle linéaire par rapport à l'évaluation la distribution de la variable de réponse). Une autre façon de dire cela est que le lien entre les variables indépendantes et la réponse peut créer l'apparence d'une surdispersion même dans un modèle de Poisson magnifiquement précis.
whuber
2
@whuber C'est un bon point. Pour un seul prédicteur catégorique examinant la variance et la moyenne des sous-groupes serait suffisant pour détecter une surdispersion, mais pour une régression de Poisson multivariée, ce n'est pas le cas. Pour les besoins de l'argument, supposons qu'une régression binomale de Poisson et négative a été effectuée et que le binôme négatif montre un meilleur ajustement via la comparaison du modèle anova. Cela devrait indiquer une surdispersion. Cela étant, comment la variance / surdispersion pourrait-elle être modélisée de façon paramétrique plutôt que comme une constante?
Brian Diggs
1
Je pense qu'il y a un chapitre dans McCullagh et Nelder, Modèles linéaires généralisés, 2e édition , qui couvre cela (mais ma copie est à l'œuvre) ... il n'y aura pas de vraisemblance, mais vous pouvez utiliser la quasi-vraisemblance, et pour que peut être le titre du chapitre. Vous appliquez les moindres carrés repondérés de manière itérative même s'il n'y a pas de modèle de probabilité correspondant.
Karl
Le chapitre 10 de McCullagh et Nelder examine la modélisation conjointe de la moyenne et de la dispersion, c'est-à-dire le paramétrage de la moyenne et de la variance. La quasi-vraisemblance étendue est l'outil principal, mais dans certaines situations, il peut y avoir des inquiétudes au sujet de cette méthode
invité

Réponses:

9

Vous pouvez modéliser le paramètre de dispersion binomiale négative lui-même en fonction de variables et de paramètres à l'aide du package gamlss dans R. Je fournis un extrait d'une introduction:

Pourquoi devrais-je utiliser GAMLSS

Si votre variable de réponse est des données de comptage (discrètes), il est très probable que la distribution de Poisson ne correspondra pas bien. GAMLSS fournit une variété de distributions discrètes (y compris le binôme négatif) que vous pouvez essayer. Le paramètre de dispersion peut également être modélisé en fonction de variables explicatives.

Le site www.gamlss.org contient de la documentation et des liens vers plusieurs articles sur les approches utilisées dans le paquet.

jbowman
la source
Les deux réponses sont utiles et fournissent de bonnes références. J'accorde la prime à celui-ci parce que (a) il a précédé l'autre de quatre minutes et (b) la solution gamlss est nouvelle pour moi (je connais nbreg). Mais chapeau à @timbp pour avoir fourni une bonne réponse; J'espère que vous continuerez à contribuer à notre site.
whuber
2
@whuber, j'étais également déchiré quant à savoir comment accepter "la" réponse car les deux étaient très utiles. Je suis allé avec celui-ci car il comprenait une référence de package R que je peux utiliser; la référence du livre dans l'autre réponse a été bonne lecture et ne doit pas être écartée. Merci d'avoir offert la prime qui a suscité ces deux bonnes réponses.
Brian Diggs
9

Stata fournit la commande -gnbreg-, qui vous permet de modéliser le paramètre de dispersion. Vous pouvez afficher l'aide de Stata pour la commande sur http://www.stata.com/help.cgi?nbreg

Stata appelle cela le modèle binomial négatif généralisé. Joseph Hilbe en parle dans son livre "Negative Binomial Regression", section 10.4, comme "NB-H: Heterogeneous negative binomial regression".

timbp
la source