En modélisant les données du nombre de sinistres dans un environnement d'assurance, j'ai commencé avec Poisson mais j'ai ensuite remarqué une surdispersion. Un Quasi-Poisson modélisait mieux la relation moyenne-variance plus élevée que le Poisson de base, mais j'ai remarqué que les coefficients étaient identiques dans les modèles de Poisson et de Quasi-Poisson.
Si ce n'est pas une erreur, pourquoi cela se produit-il? Quel est l'avantage d'utiliser Quasi-Poisson par rapport à Poisson?
A noter:
- Les pertes sous-jacentes sont sur une base excessive, ce qui (je crois) a empêché le Tweedie de fonctionner - mais c'était la première distribution que j'ai essayée. J'ai également examiné les modèles NB, ZIP, ZINB et Hurdle, mais j'ai quand même trouvé que le Quasi-Poisson offrait le meilleur ajustement.
- J'ai testé la surdispersion via dispersiontest dans le package AER. Mon paramètre de dispersion était d'environ 8,4, avec une valeur de p à la magnitude 10 ^ -16.
- J'utilise glm () avec family = poisson ou quasipoisson et un lien de log pour le code.
- Lors de l'exécution du code de Poisson, je sors avec des avertissements de "In dpois (y, mu, log = TRUE): non entier x = ...".
Fils SE utiles selon les conseils de Ben:
counts/exposure
. Vous devez plutôt ajouter unoffset(log(exposure))
terme offset ( ) à vos modèles.Réponses:
C'est presque un doublon ; la question liée explique que vous ne devez pas vous attendre à ce que les estimations des coefficients, la déviance résiduelle ou les degrés de liberté changent. La seule chose qui change lors du passage de Poisson à quasi-Poisson est qu'un paramètre d'échelle précédemment fixé à 1 est calculé à partir d'une estimation de la variabilité résiduelle / de l'ajustement (généralement estimée via la somme des carrés des résidus Pearson ( ) divisé par le df résiduel, bien que l'utilisation asymptotique de la déviance résiduelle donne le même résultat). Le résultat est que les erreurs standard sont mises à l'échelle par la racine carrée de ce paramètre d'échelle, avec des changements concomitants dans les intervalles de confiance et les valeurs de . pχ2 p
L'avantage de la quasi-vraisemblance est qu'elle corrige l'erreur fondamentale de supposer que les données sont de Poisson (= comptages homogènes et indépendants); cependant, la résolution du problème de cette manière masque potentiellement d'autres problèmes avec les données. (Voir ci-dessous.) La quasi-vraisemblance est un moyen de gérer la surdispersion; si vous ne traitez pas la surdispersion d'une manière ou d'une autre, vos coefficients seront raisonnables, mais votre inférence (IC, valeurs de , etc.) sera une erreur.p
la source