Poisson ou quasi poisson dans une régression avec données de comptage et surdispersion?

16

J'ai des données de comptage (analyse de l'offre / de la demande avec le nombre de clients, en fonction - éventuellement - de nombreux facteurs) J'ai essayé une régression linéaire avec des erreurs normales, mais mon tracé QQ n'est pas vraiment bon. J'ai essayé une transformation logarithmique de la réponse: encore une fois, mauvais QQ-plot.

Alors maintenant, j'essaie une régression avec des erreurs de Poisson. Avec un modèle avec toutes les variables significatives, j'obtiens:

Null deviance: 12593.2  on 53  degrees of freedom
Residual deviance:  1161.3  on 37  degrees of freedom
AIC: 1573.7

Number of Fisher Scoring iterations: 5

La déviance résiduelle est plus grande que les degrés de liberté résiduels: j'ai une surdispersion.

Comment savoir si je dois utiliser du quasipoisson? Quel est l'objectif de quasipoisson dans ce cas? J'ai lu ce conseil dans "The R Book" de Crawley, mais je ne vois pas l'intérêt ni une grande amélioration dans mon cas.

Antonin
la source

Réponses:

18

Lorsque vous essayez de déterminer le type d'équation glm que vous souhaitez estimer, vous devez penser à des relations plausibles entre la valeur attendue de votre variable cible compte tenu des variables de droite (rhs) et la variance de la variable cible compte tenu des variables rhs. Des graphiques des valeurs résiduelles en fonction des valeurs ajustées de votre modèle Normal peuvent vous y aider. Avec la régression de Poisson, la relation supposée est que la variance est égale à la valeur attendue; plutôt restrictif, je pense que vous serez d'accord. Avec une régression linéaire "standard", l'hypothèse est que la variance est constante quelle que soit la valeur attendue. Pour une régression quasi-poisson, la variance est supposée être une fonction linéaire de la moyenne; pour la régression binomiale négative, une fonction quadratique.

Cependant, vous n'êtes pas limité à ces relations. La spécification d'une "famille" (autre que "quasi") détermine la relation moyenne-variance. Je n'ai pas The R Book, mais j'imagine qu'il a un tableau qui montre les fonctions familiales et les relations moyenne-variance correspondantes. Pour la famille "quasi", vous pouvez spécifier n'importe laquelle de plusieurs relations moyenne-variance, et vous pouvez même écrire la vôtre; voir la documentation de R . Il se peut que vous puissiez trouver un meilleur ajustement en spécifiant une valeur non par défaut pour la fonction de variance moyenne dans un modèle "quasi".

Vous devez également faire attention à la plage de la variable cible; dans votre cas, il s'agit de données de comptage non négatives. Si vous avez une fraction substantielle de faibles valeurs - 0, 1, 2 - les distributions continues ne s'adapteront probablement pas bien, mais si vous ne le faites pas, il n'y a pas beaucoup de valeur à utiliser une distribution discrète. Il est rare que vous considériez les distributions de Poisson et normales comme des concurrents.

jbowman
la source
Oui tu as raison. Ici, j'ai des données de comptage mais avec de grandes valeurs. Je devrais utiliser une distribution continue.
Antonin
8

Vous avez raison, ces données sont probablement trop dispersées. Quasipoisson est un remède: il estime également un paramètre d'échelle (qui est fixé pour les modèles de poisson car la variance est également la moyenne) et fournira un meilleur ajustement. Cependant, ce n'est plus la probabilité maximale que vous faites alors, et certains tests et indices de modèle ne peuvent pas être utilisés. Une bonne discussion peut être trouvée dans Venables et Ripley, Modern Applied Statistics with S (Section 7.5) .

Une alternative consiste à utiliser un modèle binomial négatif, par exemple la glm.nb()fonction dans le package MASS.

Momo
la source
1
Mais suis-je "obligé" d'utiliser quasipoisson dans ce cas? Je demande car mon modèle non quasipoisson est meilleur (juste du poisson de base) dans le sens où plus de variables sont significatives.
Antonin
2
Cela n'a-t-il pas de sens cependant? Si j'ai utilisé un modèle de régression où j'ai supposé que sigma est .00001 au lieu d'utiliser l'estimation à partir des données (2.3 disons), alors bien sûr, les choses vont être plus significatives.
Dason
1
Antonin: Je dirais que juste parce que plus de variables sont importantes, cela ne rend pas les choses "meilleures". Comme Dason l'a souligné, il peut facilement s'agir de faux positifs si vous sous-estimez la variance d'erreur. J'utiliserais certainement une quasi-méthode ou le binôme négatif dans ce cas, mais à moins de revoir votre article, vous ne serez pas obligé de faire quoi que ce soit;)
Momo
Merci beaucoup pour vos réponses! Connaissez-vous un moyen de comparer les modèles binomiaux quasi-poisson et négatifs? Dans la plupart des livres, ils présentent les modèles mais n'expliquent pas comment choisir entre eux.
Antonin
1
De la sortie, il semble que vous ajustez 53-17 = 16 paramètres à 53 + 1 = 54 points de données; est-ce correct? Dans l'affirmative, toute méthode qui s'appuie sur des approximations asymptotiques, y compris l'utilisation de glm()et glm.nb()est susceptible de donner une inférence mal calibrée; il serait raisonnable de s'attendre à ce que la précision soit surestimée. Il serait utile d'en savoir plus sur les raisons pour lesquelles vous souhaitez effectuer cette régression; il est possible que des méthodes plus performantes dans de petits exemples de situations soient utilisées à la place.
invité le