J'ai un ensemble de données que je m'attendrais à suivre une distribution de Poisson, mais il est sur-dispersé d'environ 3 fois. À l'heure actuelle, je modélise cette overdispersion en utilisant quelque chose comme le code suivant dans R.
## assuming a median value of 1500
med = 1500
rawdist = rpois(1000000,med)
oDdist = rawDist + ((rawDist-med)*3)
Visuellement, cela semble très bien correspondre à mes données empiriques. Si je suis satisfait de l'ajustement, y a-t-il une raison pour laquelle je devrais faire quelque chose de plus complexe, comme utiliser une distribution binomiale négative, comme décrit ici ? (Si c'est le cas, des pointeurs ou des liens sur ce sujet seraient très appréciés).
Oh, et je suis conscient que cela crée une distribution légèrement dentelée (en raison de la multiplication par trois), mais cela ne devrait pas avoir d'importance pour mon application.
Mise à jour: Pour le bien de toute autre personne qui recherche et trouve cette question, voici une fonction R simple pour modéliser un poisson sur-dispersé en utilisant une distribution binomiale négative. Réglez d sur le rapport moyen / variance souhaité:
rpois.od<-function (n, lambda,d=1) {
if (d==1)
rpois(n, lambda)
else
rnbinom(n, size=(lambda/(d-1)), mu=lambda)
}
(via la liste de diffusion R: https://stat.ethz.ch/pipermail/r-help/2002-June/022425.html )
la source
Si votre valeur moyenne pour le Poisson est de 1500, alors vous êtes très proche d'une distribution normale; vous pouvez essayer de l'utiliser comme approximation, puis modéliser la moyenne et la variance séparément.
la source