Hypothèses de régression de Poisson et comment les tester dans R

11

Je voudrais tester dans quelle régression correspond le mieux à mes données. Ma variable dépendante est un nombre et a beaucoup de zéros.

Et j'aurais besoin d'aide pour déterminer le modèle et la famille à utiliser (poisson ou quasipoisson, ou régression poisson zéro gonflé), et comment tester les hypothèses.

  1. Régression de Poisson: d'après ce que je comprends, l'hypothèse forte est que la variable dépendante moyenne = variance. Comment testez-vous cela? À quel point doivent-ils être proches les uns des autres? Est-ce que la moyenne et la variance inconditionnelles ou conditionnelles sont utilisées pour cela? Que dois-je faire si cette hypothèse ne tient pas?
  2. J'ai lu que si la variance est supérieure à la moyenne, nous avons une surdispersion, et une façon potentielle de gérer cela consiste à inclure des variables plus indépendantes, ou famille = quasipoisson. Cette distribution a-t-elle d'autres exigences ou hypothèses? Quel test dois-je utiliser pour voir si (1) ou (2) correspond mieux - simplement anova(m1,m2)?
  3. J'ai également lu que la distribution binomiale négative peut être utilisée en cas de surdispersion. Comment faire cela dans R? Quelle est la différence avec quasipoisson?
  4. Régression de Poisson gonflée à zéro: J'ai lu que l'utilisation du test vuong vérifie quels modèles conviennent mieux.

    > vuong (model.poisson, model.zero.poisson)

    Est-ce exact? Quelles hypothèses a une régression gonflée à zéro?

  5. UCLA's Academic Technology Services, Statistical Consulting Group a une section sur les régressions de Poisson à zéro gonflé, et teste le modèle zéro-gonflé (a) contre le modèle de poisson standard (b):

    > m.a <- zeroinfl(count ~ child + camper | persons, data = zinb)
    > m.b <- glm(count ~ child + camper, family = poisson, data = zinb)
    > vuong(m.a, m.b)

Je ne comprends pas ce que fait la | personspartie du premier modèle et pourquoi vous pouvez comparer ces modèles. Je m'attendais à ce que la régression soit la même et utilise simplement une famille différente.

Torvon
la source

Réponses:

8

1) Calculez la moyenne et la variance de l'échantillon. devrait être distribué, où est la taille de l'échantillon et le processus est vraiment Poisson - car ce sont des estimations indépendantes de la même variance.X¯S2F(1,n1)n

Notez que ce test ignore les covariables - donc probablement pas la meilleure façon de vérifier la sur-dispersion dans cette situation.

A noter également que ce test est probablement faible face à l'hypothèse de gonflement nul.

3) binôme négatif dans R: utiliser à glm.nbpartir du MASSpackage, ou utiliser la zeroinflfonction du psclpackage à l'aide du lien binomial négatif.

4) zip (Poisson zéro gonflé) est un modèle de mélange. Vous avez un résultat binaire, selon lequel un sujet appartient au groupe A (où un 0 est certain) ou au groupe B (où les nombres sont distribués en binôme de Poisson ou négatif). Un 0 observé est dû aux sujets du groupe A + aux sujets du groupe B qui se sont avérés être chanceux. Les deux aspects du modèle peuvent dépendre de covariables: l'appartenance à un groupe est modélisée comme une logistique (les cotes logarithmiques sont linéaires dans les covariables) et la partie Poisson est modélisée de la manière habituelle: la moyenne logarithmique est linéaire dans les covariables. Vous avez donc besoin des hypothèses habituelles pour une logistique (pour la partie 0 certaine) et des hypothèses habituelles pour un Poisson. En d'autres termes, un modèle zip ne résoudra pas vos problèmes de surdispersion - il ne guérit qu'un gros paquet de zéros.

5) Je ne sais pas exactement quel est l'ensemble de données et je n'ai pas pu trouver la référence. zeroinfl a besoin d'un modèle pour la partie poisson et la partie binaire (certain 0 ou non). Le certain 0 part en second. Donc, ma dit que si la personne est un certain 0 ou non dépend de "personnes" - et en supposant que le sujet n'est pas un certain 0, le compte est une fonction du campeur et de l'enfant. En d'autres termes, le log (moyenne) est une fonction linéaire du campeur et de l'enfant pour les sujets ne nécessitant pas de compte 0.

mb n'est qu'un modèle linéaire général de comptage en termes de campeur et d'enfant - tous deux supposés être des effets fixes. La fonction de liaison est Poisson.

Placidia
la source
Je vous remercie! Une question rapide: existe-t-il un moyen de produire r ^ 2 ou pseudo-r ^ 2 comme Nagelkerke dans glm en utilisant family = poisson dans R? Je vous remercie!
Torvon
0
  1. bibliothèque (pastecs)

stat.desc (dep_var) - puis regardez si la moyenne et la variance sont égales. De là, vous pouvez également calculer le% de zéros dans votre vecteur.

doigtier
la source
3
Bienvenue sur le site. Cela ressemble plus à un commentaire qu'à une réponse; aussi, il est préférable d'utiliser l'orthographe appropriée et ainsi de suite - ce n'est pas des textos et beaucoup de gens qui lisent ce site ont l'anglais comme 2ème ou 3ème ou .... langue.
Peter Flom - Réintègre Monica
3
Veuillez améliorer cette réponse rapide.
chl