Je voudrais tester dans quelle régression correspond le mieux à mes données. Ma variable dépendante est un nombre et a beaucoup de zéros.
Et j'aurais besoin d'aide pour déterminer le modèle et la famille à utiliser (poisson ou quasipoisson, ou régression poisson zéro gonflé), et comment tester les hypothèses.
- Régression de Poisson: d'après ce que je comprends, l'hypothèse forte est que la variable dépendante moyenne = variance. Comment testez-vous cela? À quel point doivent-ils être proches les uns des autres? Est-ce que la moyenne et la variance inconditionnelles ou conditionnelles sont utilisées pour cela? Que dois-je faire si cette hypothèse ne tient pas?
- J'ai lu que si la variance est supérieure à la moyenne, nous avons une surdispersion, et une façon potentielle de gérer cela consiste à inclure des variables plus indépendantes, ou famille = quasipoisson. Cette distribution a-t-elle d'autres exigences ou hypothèses? Quel test dois-je utiliser pour voir si (1) ou (2) correspond mieux - simplement
anova(m1,m2)
? - J'ai également lu que la distribution binomiale négative peut être utilisée en cas de surdispersion. Comment faire cela dans R? Quelle est la différence avec quasipoisson?
Régression de Poisson gonflée à zéro: J'ai lu que l'utilisation du test vuong vérifie quels modèles conviennent mieux.
> vuong (model.poisson, model.zero.poisson)
Est-ce exact? Quelles hypothèses a une régression gonflée à zéro?
UCLA's Academic Technology Services, Statistical Consulting Group a une section sur les régressions de Poisson à zéro gonflé, et teste le modèle zéro-gonflé (a) contre le modèle de poisson standard (b):
> m.a <- zeroinfl(count ~ child + camper | persons, data = zinb)
> m.b <- glm(count ~ child + camper, family = poisson, data = zinb)
> vuong(m.a, m.b)
Je ne comprends pas ce que fait la | persons
partie du premier modèle et pourquoi vous pouvez comparer ces modèles. Je m'attendais à ce que la régression soit la même et utilise simplement une famille différente.
stat.desc (dep_var) - puis regardez si la moyenne et la variance sont égales. De là, vous pouvez également calculer le% de zéros dans votre vecteur.
la source