Comment gérer la surdispersion dans la régression de Poisson: quasi-vraisemblance, GLM binomial négatif ou effet aléatoire au niveau du sujet?

12

J'ai rencontré trois propositions pour traiter la surdispersion dans une variable de réponse de Poisson et un modèle de départ à effets fixes:

  1. Utilisez un quasi modèle;
  2. Utiliser un GLM binomial négatif;
  3. Utilisez un modèle mixte avec un effet aléatoire au niveau du sujet.

Mais lequel choisir réellement et pourquoi? Y a-t-il un critère réel parmi ceux-ci?

Bryan
la source
Le quasi modèle traite le paramètre échelle / dispersion comme un paramètre de nuisance et fournit des SE pour les IRR qui sont élargis par cette hétérogénéité tandis que les IRR binomiaux négatifs dépendent du paramètre d'échelle. Un modèle mixte modélise un effet différent: le niveau individuel ou les effets conditionnels alors que les modèles binomiaux et quasipoisson négatifs sont des modèles marginaux. Ils n'évaluent donc pas la même chose.
AdamO
D'accord, alors lequel choisir réellement et quels sont les critères pour prendre cette décision?
Bryan
Je pense que vous choisiriez Quasipoisson si (indépendamment des données) vous savez que le modèle de Poisson estime la tendance qui vous intéresse, mais la conception ou l'analyse des données ne répondent pas exactement à l'hypothèse de variance. Vous utiliseriez un modèle binomial négatif si vous aviez de bonnes raisons de croire que le modèle de probabilité est en fait un binôme négatif, et vous devez réellement prédire l'hétéroscédasticité plutôt que de faire une inférence sur la tendance. Enfin, vous utilisez un modèle mixte si vous souhaitez connaître l'effet d'une exposition sur un individu plutôt que sur la population (c'est-à-dire ne jamais utiliser en toxicologie).
AdamO
Je suis en désaccord avec @AdamO par rapport au "modèle mixte ... effet d'une exposition sur ... l'individu plutôt que dans la population" . Ma compréhension est que les modèles mixtes quantifient les effets au niveau du sujet, puis les intègrent. Essentiellement, cela explique la pseudoréplication (plusieurs mesures sur le même sujet) de vos estimations de paramètres, ce qui se traduit par des estimations de paramètres non biaisées pour la population (et non pour l'individu). J'utilise des modèles mixtes tout le temps pour cette raison ... alors j'espère que je ne me trompe pas!
RTbecard

Réponses:

12

La régression de Poisson n'est qu'un GLM:

Les gens parlent souvent de la justification paramétrique de l'application de la régression de Poisson. En fait, la régression de Poisson n'est qu'un GLM. Cela signifie que la régression de Poisson est justifiée pour tout type de données (comptes, notes, scores aux examens, événements binaires, etc.) lorsque deux hypothèses sont remplies: 1) le log du résultat moyen est une combinaison linéaire des prédicteurs et 2) la variance du résultat est égale à la moyenne . Ces deux conditions sont respectivement appelées relation moyenne-modèle et moyenne-variance.

L'hypothèse du modèle moyen peut être quelque peu assouplie en utilisant un ensemble complexe d'ajustements pour les prédicteurs. C'est bien parce que la fonction de liaison affecte l'interprétation des paramètres; la subtilité de l'interprétation fait la différence entre répondre à une question scientifique et échapper complètement aux consommateurs de votre analyse statistique. Dans un autre article de SE, je discute de l'utilité des transformations logarithmiques pour l'interprétation.

Il s'avère cependant que la deuxième hypothèse (relation moyenne-variance) a de fortes implications sur l'inférence. Lorsque la relation moyenne-variance n'est pas vraie, les estimations des paramètres ne sont pas biaisées . Cependant, les erreurs standard, les intervalles de confiance, les valeurs de p et les prévisions sont tous mal calibrés. Cela signifie que vous ne pouvez pas contrôler l'erreur de type I et que votre puissance n'est pas optimale.

Et si la variance moyenne pouvait être relâchée de sorte que la variance soit simplement proportionnelle à la moyenne? La régression binomiale négative et la régression de Quasipoisson le font.

Modèles Quasipoisson

Les modèles de Quasipoisson ne sont pas fondés sur la vraisemblance. Ils maximisent une «quasi-vraisemblance» qui est une vraisemblance de Poisson jusqu'à une constante proportionnelle. Cette constante proportionnelle se trouve être la dispersion. La dispersion est considérée comme une nuisanceparamètre. Alors que la routine de maximisation aboutit à une estimation du paramètre de nuisance, cette estimation n'est qu'un artefact des données plutôt qu'une valeur qui se généralise à la population. La dispersion ne sert qu'à «rétrécir» ou «élargir» les SE des paramètres de régression selon que la variance est proportionnellement inférieure ou supérieure à la moyenne. La dispersion étant traitée comme un paramètre de nuisance, les modèles de quasi-ponton bénéficient d'une multitude de propriétés robustes: les données peuvent en fait être hétéroscédastiques (ne répondant pas à l'hypothèse de variance moyenne proportionnelle) et même présenter de petites sources de dépendance, et le modèle moyen n'a pas besoin être exactement correct, mais les IC à 95% pour les paramètres de régression sont asymptotiquement corrects.Si votre objectif de l'analyse des données est de mesurer l'association entre un ensemble de paramètres de régression et le résultat, les modèles de quasi-ponton sont généralement la voie à suivre. Une limitation de ces modèles est qu'ils ne peuvent pas fournir d'intervalles de prédiction, les résidus de Pearson ne peuvent pas vous en dire beaucoup sur la précision du modèle moyen, et des critères d'information comme l'AIC ou le BIC ne peuvent pas comparer efficacement ces modèles à d'autres types de modèles.

Modèles binomiaux négatifs

Il est très utile de comprendre la régression binomiale négative comme une régression de Poisson à 2 paramètres. Le modèle moyen est le même que dans les modèles de Poisson et Quasipoisson où le log du résultat est une combinaison linéaire de prédicteurs. De plus, le paramètre "échelle" modélise une relation moyenne-variance où la variance est simplement proportionnelle à la moyenne comme précédemment. Cependant, à la différence des modèles quasipoisson, ce type de modèle est une procédure basée sur la vraisemblance exacte. Dans ce cas, la dispersion est un paramètre réel qui a une certaine étendue de généralisation à la population. Cela présente quelques avantages par rapport au quasipoisson mais, à mon avis, impose plus d'hypothèses (non vérifiables). Contrairement aux modèles quasipoisson: les données doivent être indépendantes, le modèle moyen doit être correct et le paramètre d'échelle doit être homoscédastique sur toute la plage des valeurs ajustées pour obtenir une inférence correcte. Cependant, ceux-ci peuvent être évalués quelque peu en inspectant les résidus de Pearson, et le modèle produit des prévisions et des intervalles de prédiction viables, et se prête à une comparaison avec des critères d'information.

Les modèles de probabilité binomiale négative proviennent d'un mélange Poisson-Gamma. Autrement dit, il existe une variable aléatoire Gamma fluctuante inconnue "alimentant" le paramètre de taux de Poisson. Étant donné que l'ajustement NB GLM est basé sur la probabilité, il est généralement utile d'énoncer des croyances antérieures sur le mécanisme de génération de données et de les relier à la justification probabiliste du modèle en question. Par exemple, si je teste le nombre de coureurs abandonnant les courses d'endurance de 24 heures, je pourrais considérer que les conditions environnementales sont toutes des facteurs de stress que je n'ai pas mesurés et contribuent ainsi au risque de DNF, comme l'humidité ou la température froide affectant le pneu la traction et donc le risque de spin-out et d'épave.

Modèles pour les données dépendantes: GLMM vs GEE

Les modèles mixtes linéaires généralisés (GLMM) pour les données de Poisson ne se comparent pas aux approches ci-dessus. Les GLMM répondent à une question différente et sont utilisés dans différentes structures de données. Ici, les sources de dépendance entre les données sont mesurées explicitement. Les GLMM utilisent des interceptions et des pentes aléatoires pour tenir compte de l'hétérogénéité au niveau individuel. Cela modifie ce que nous estimons. Les effets aléatoires modifient la moyenne et la variance qui est modélisée plutôt que simplement la variance comme nous l'avons vu ci-dessus.

Il existe deux niveaux d'association possibles qui peuvent être mesurés dans les données dépendantes: le niveau de la population (marginal) et le niveau individuel (conditionnel). Les GLMM prétendent mesurer les associations au niveau individuel (conditionnelles): c'est-à-dire, étant donné la multitude de contributeurs au niveau individuel au résultat, quel est l'effet relatif d'une combinaison de prédicteurs. Par exemple, les cours de préparation aux examens peuvent avoir peu d'effet sur les enfants qui fréquentent des écoles exemplaires, tandis que les enfants des quartiers défavorisés peuvent en bénéficier énormément. L'effet au niveau individuel est alors considérablement plus élevé dans cette circonstance, car les enfants favorisés sont trop loin au-dessus de la courbe en termes d'expositions positives.

Si nous appliquions naïvement des modèles quasipoisson ou binomiaux négatifs à des données dépendantes, les modèles NB seraient erronés et les modèles Quasipoisson seraient inefficaces. Le GEE, cependant, étend le modèle de quasipoisson pour modéliser explicitement les structures de dépendance comme le GLMM, mais le GEE mesure une tendance marginale (au niveau de la population) et obtient les poids corrects, les erreurs standard et l'inférence.

Exemple d'analyse de données:

Ce message est déjà trop long :) Il y a une belle illustration des deux premiers modèles dans ce tutoriel , ainsi que des références à plus de lecture si vous êtes intéressé. Les données en question concernent les habitudes de nidification des crabes en fer à cheval: les femelles sont assises dans des nids et les mâles (satellites) s'y attachent. Les enquêteurs ont voulu mesurer le nombre de mâles attachés à une femelle en fonction des caractéristiques de la femelle. J'espère avoir souligné pourquoi les modèles mixtes ne sont pas comparables: si vous avez des données dépendantes, vous devez utiliser le bon modèle pour la question à laquelle ces données dépendantes tentent de répondre, soit un GLM ou un GEE.

Les références:

[1] Agresti, analyse des données catégorielles 2e édition

[2] Diggle, Heagerty, Liang, Zeger, Analysis of Longitudinal Data 2nd ed.

AdamO
la source