J'essaie de modéliser les données de comptage dans R qui sont apparemment sous-dispersées (paramètre de dispersion ~ 0,40). C'est probablement pourquoi un modèle binomial ( ) glm
avec family = poisson
ou négatif glm.nb
n'est pas significatif. Quand je regarde les descriptions de mes données, je n'ai pas le biais typique des données de comptage et les résidus dans mes deux conditions expérimentales sont également homogènes.
Mes questions sont donc:
Dois-je même utiliser des analyses de régression spéciales pour mes données de comptage, si mes données de comptage ne se comportent pas vraiment comme des données de comptage? Je suis parfois confronté à la non-normalité (généralement en raison de la kurtosis), mais j'ai utilisé la méthode du centile bootstrap pour comparer les moyennes ajustées (Wilcox, 2012) pour tenir compte de la non-normalité. Les méthodes de comptage peuvent-elles être remplacées par une méthode robuste suggérée par Wilcox et réalisée dans le package WRS?
Si je dois utiliser des analyses de régression pour les données de dénombrement, comment puis-je tenir compte de la sous-dispersion? Le Poisson et la distribution binomiale négative supposent une dispersion plus élevée, donc cela ne devrait pas être approprié, non? Je pensais à appliquer la distribution quasi-Poisson , mais c'est généralement recommandé pour la sur-dispersion. J'ai lu sur les modèles bêta-binomiaux qui semblent être en mesure de tenir compte de la sur- et de la sous-dispersion sont disponibles dans le
VGAM
package de R. Les auteurs semblent cependant recommander une distribution de Poisson tildée , mais je ne la trouve pas dans le package .
Quelqu'un peut-il recommander une procédure pour les données sous-dispersées et peut-être fournir un exemple de code R pour cela?
Réponses:
La meilleure façon --- et standard de gérer les données de Poisson sous-dispersées est d'utiliser un Poisson généralisé, ou peut-être un modèle d'obstacle. Trois modèles de comptage de paramètres peuvent également être utilisés pour les données sous-dispersées; par exemple Faddy-Smith, Waring, Famoye, Conway-Maxwell et d'autres modèles de comptage généralisés. Le seul inconvénient de ces derniers est l'interprétabilité. Mais pour les données générales sous-dispersées, le Poisson généralisé doit être utilisé. C'est comme un binôme négatif pour les données sur-dispersées. J'en discute en détail dans deux de mes livres, Modeling Count Data (2014) et Negative Binomial Regression, 2nd edition, (2011) tous deux par Cambridge University Press. Dans R, le package VGAM permet une régression généralisée de Poisson (GP). Les valeurs négatives du paramètre de dispersion indiquent un ajustement pour la sous-dispersion. Vous pouvez également utiliser le modèle GP pour les données sur-dispersées, mais généralement le modèle NB est meilleur. En fin de compte, il est préférable de déterminer la cause de la sous-dispersion, puis de sélectionner le modèle le plus approprié pour y faire face.
la source
J'ai rencontré un Poisson sous-dispersé une fois qui avait à voir avec la fréquence à laquelle les gens joueraient à un jeu social. Il s'est avéré que cela était dû à l'extrême régularité avec laquelle les gens jouaient le vendredi. La suppression des données du vendredi m'a donné le Poisson surdispersé attendu. Vous avez peut-être la possibilité de modifier de la même manière vos données.
la source
Il existe des situations où la sous-dispersion se confond avec une inflation zéro, ce qui est typique du nombre d'enfants préférés par les individus des deux sexes. Je n'ai pas trouvé de moyen de capturer cela à ce jour
la source