Coefficients identiques estimés dans le modèle Poisson vs Quasi-Poisson

12

En modélisant les données du nombre de sinistres dans un environnement d'assurance, j'ai commencé avec Poisson mais j'ai ensuite remarqué une surdispersion. Un Quasi-Poisson modélisait mieux la relation moyenne-variance plus élevée que le Poisson de base, mais j'ai remarqué que les coefficients étaient identiques dans les modèles de Poisson et de Quasi-Poisson.

Si ce n'est pas une erreur, pourquoi cela se produit-il? Quel est l'avantage d'utiliser Quasi-Poisson par rapport à Poisson?

A noter:

  • Les pertes sous-jacentes sont sur une base excessive, ce qui (je crois) a empêché le Tweedie de fonctionner - mais c'était la première distribution que j'ai essayée. J'ai également examiné les modèles NB, ZIP, ZINB et Hurdle, mais j'ai quand même trouvé que le Quasi-Poisson offrait le meilleur ajustement.
  • J'ai testé la surdispersion via dispersiontest dans le package AER. Mon paramètre de dispersion était d'environ 8,4, avec une valeur de p à la magnitude 10 ^ -16.
  • J'utilise glm () avec family = poisson ou quasipoisson et un lien de log pour le code.
  • Lors de l'exécution du code de Poisson, je sors avec des avertissements de "In dpois (y, mu, log = TRUE): non entier x = ...".

Fils SE utiles selon les conseils de Ben:

  1. Mathématiques de base des décalages dans la régression de Poisson
  2. Impact des compensations sur les coefficients
  3. Différence entre l'utilisation de l'exposition comme covariable et le décalage
Frank H.
la source
Une distribution Tweedie ne serait-elle pas une meilleure idée?
duffymo
J'ai essayé Tweedie dès le départ, mais nos données sur les pertes ne sont pas fondées, mais plutôt sur une base excessive. A également essayé les modèles de binôme négatif, ZIP et obstacle pour traiter la dispersion du nombre.
Frank H.
1
pouvez-vous expliquer un peu plus d'où viennent les valeurs non entières de vos données ??
Ben Bolker
6
vous ne devez pas modéliser les fréquences / taux en calculant des ratios de counts/exposure. Vous devez plutôt ajouter un offset(log(exposure))terme offset ( ) à vos modèles.
Ben Bolker
1
C'est pratique, bien que le plus important lors de la modélisation de Poisson (pas quasi-Poisson). Je ne connais pas une bonne référence au pied levé; si vous ne trouvez pas de réponse pertinente ici sur CrossValidated, cela ferait une bonne question de suivi.
Ben Bolker

Réponses:

25

C'est presque un doublon ; la question liée explique que vous ne devez pas vous attendre à ce que les estimations des coefficients, la déviance résiduelle ou les degrés de liberté changent. La seule chose qui change lors du passage de Poisson à quasi-Poisson est qu'un paramètre d'échelle précédemment fixé à 1 est calculé à partir d'une estimation de la variabilité résiduelle / de l'ajustement (généralement estimée via la somme des carrés des résidus Pearson ( ) divisé par le df résiduel, bien que l'utilisation asymptotique de la déviance résiduelle donne le même résultat). Le résultat est que les erreurs standard sont mises à l'échelle par la racine carrée de ce paramètre d'échelle, avec des changements concomitants dans les intervalles de confiance et les valeurs de . pχ2p

L'avantage de la quasi-vraisemblance est qu'elle corrige l'erreur fondamentale de supposer que les données sont de Poisson (= comptages homogènes et indépendants); cependant, la résolution du problème de cette manière masque potentiellement d'autres problèmes avec les données. (Voir ci-dessous.) La quasi-vraisemblance est un moyen de gérer la surdispersion; si vous ne traitez pas la surdispersion d'une manière ou d'une autre, vos coefficients seront raisonnables, mais votre inférence (IC, valeurs de , etc.) sera une erreur.p

  • Comme vous le commentez ci-dessus, il existe de nombreuses approches différentes de la surdispersion (Tweedie, différentes paramétrisations binomiales négatives, quasi-vraisemblance, inflation / altération zéro).
  • Avec un facteur de surdispersion> 5 (8,4), je m'inquiéterais un peu de savoir s'il est provoqué par une sorte de modèle inadapté (valeurs aberrantes, inflation zéro [que je vois que vous avez déjà essayé], non-linéarité) plutôt que de représenter l'hétérogénéité à tous les niveaux. Mon approche générale est l'exploration graphique des données brutes et les diagnostics de régression ...
Ben Bolker
la source
Très utile. Je vois maintenant que les valeurs de p pour les variables et les niveaux de variables dans le Poisson sont beaucoup plus statistiquement significatives que pour le Quasi-Poisson, en raison de l'échelle que vous avez mentionnée. J'ai testé les valeurs aberrantes, mais je n'ai pas trouvé que c'était un problème. Quels pourraient être certains autres problèmes masqués par une surdispersion, ou des exemples de telles approches pour trouver ces problèmes?
Frank H.
Surtout non-linéarité des réponses sur l'échelle du lien (log); vérifier les graphiques résiduels vs ajustés et les graphiques résiduels vs variables prédictives pour voir s'il existe des modèles.
Ben Bolker
1
+1 Joliment aménagé! J'apprécie vraiment la clarté de votre premier paragraphe.
Alexis