J'ai des données avec un double pic que j'essaie de modéliser, et il y a suffisamment de chevauchement entre les pics que je ne peux pas les traiter indépendamment. Un histogramme des données pourrait ressembler à ceci:
J'ai créé deux modèles pour cela: l'un utilise deux distributions de Poisson, et l'autre utilise deux distributions binomiales négatives (pour tenir compte de la surdispersion). Quelle est la meilleure façon de savoir quel modèle correspond le mieux aux données?
Ma pensée initiale est que je pourrais utiliser un test de Kolmogorov-Smirnov pour comparer chaque modèle aux données, puis faire un test de rapport de vraisemblance pour voir si l'un est bien mieux adapté. Est-ce que ça a du sens? Si oui, je ne sais pas exactement comment effectuer le test du rapport de vraisemblance. Le chi carré est-il approprié et combien de degrés de liberté ai-je?
Si cela aide, un code R (très simplifié) pour les modèles pourrait ressembler à ceci:
## inital data points
a <- read.table("data")
#create model data
model.pois = c(rpois(1000000,200),rpois(500000,250))
model.nb = c(rnbinom(1000000,200,0.5),rnbinom(500000,275,0.5)
#Kolmogorov-Smirnov test
#use ks.boot, since it's count data that may contain duplicate values
kpois = ks.boot(model.pois,a)
knb = ks.boot(model.nb,a)
#here's where I'd do some sort of likelihood ratio test
# . . .
Edit: Voici une image qui peut expliquer les données et les distributions que je ajuste mieux. Il est totalement clair à partir de la visualisation que le deuxième modèle (utilisant la dist binomiale négative pour tenir compte de la surdispersion) est un meilleur ajustement. J'aimerais montrer cela quantitativement, cependant.
(rouge - données, vert - modèle)
Réponses:
Vous pouvez utiliser une métrique telle que l' erreur quadratique moyenne entre les valeurs réelles et les valeurs prévues pour comparer les deux modèles.
la source
Vous ne pouvez pas les comparer directement car le binôme négatif a plus de paramètres. En effet, le Poisson est "imbriqué" dans le binôme négatif en ce sens qu'il s'agit d'un cas limite, de sorte que le NegBin s'adaptera toujours mieux que le Poisson. Cependant, cela permet d'envisager quelque chose comme un test de rapport de vraisemblance, mais le fait que le Poisson soit à la limite de l'espace des paramètres pour le binôme négatif peut affecter la distribution de la statistique de test.
Dans tous les cas, même si la différence de nombre de paramètres n'était pas un problème, vous ne pouvez pas faire de tests KS directement car vous avez des paramètres estimés , et KS est spécifiquement pour le cas où tous les paramètres sont spécifiés. Votre idée d'utiliser le bootstrap traite de ce problème, mais pas du premier (différence de nombre de paramètres)
J'envisagerais également des tests de qualité de l'ajustement en douceur (par exemple, voir le livre de Rayner et Best), qui, par exemple, peuvent conduire à une partition du test de qualité d'ajustement du chi carré en composants d'intérêt (mesure des écarts par rapport au modèle de Poisson dans ce cas) - pris pour dire quatrième ou sixième ordre, cela devrait conduire à un test avec une bonne puissance pour l'alternative NegBin.
(Edit: vous pouvez comparer vos ajustements de poisson et de négbin via un test du chi carré, mais il aura une faible puissance. .)
la source