Comment gérer la surdispersion dans la régression de Poisson: quasi-vraisemblance, GLM binomial négatif ou effet aléatoire au niveau du sujet?

La régression de Poisson n'est qu'un GLM:

Les gens parlent souvent de la justification paramétrique de l'application de la régression de Poisson. En fait, la régression de Poisson n'est qu'un GLM. Cela signifie que la régression de Poisson est justifiée pour tout type de données (comptes, notes, scores aux examens, événements binaires, etc.) lorsque deux hypothèses sont remplies: 1) le log du résultat moyen est une combinaison linéaire des prédicteurs et 2) la variance du résultat est égale à la moyenne . Ces deux conditions sont respectivement appelées relation moyenne-modèle et moyenne-variance.

L'hypothèse du modèle moyen peut être quelque peu assouplie en utilisant un ensemble complexe d'ajustements pour les prédicteurs. C'est bien parce que la fonction de liaison affecte l'interprétation des paramètres; la subtilité de l'interprétation fait la différence entre répondre à une question scientifique et échapper complètement aux consommateurs de votre analyse statistique. Dans un autre article de SE, je discute de l'utilité des transformations logarithmiques pour l'interprétation.

Il s'avère cependant que la deuxième hypothèse (relation moyenne-variance) a de fortes implications sur l'inférence. Lorsque la relation moyenne-variance n'est pas vraie, les estimations des paramètres ne sont pas biaisées . Cependant, les erreurs standard, les intervalles de confiance, les valeurs de p et les prévisions sont tous mal calibrés. Cela signifie que vous ne pouvez pas contrôler l'erreur de type I et que votre puissance n'est pas optimale.

Et si la variance moyenne pouvait être relâchée de sorte que la variance soit simplement proportionnelle à la moyenne? La régression binomiale négative et la régression de Quasipoisson le font.

Modèles Quasipoisson

Les modèles de Quasipoisson ne sont pas fondés sur la vraisemblance. Ils maximisent une «quasi-vraisemblance» qui est une vraisemblance de Poisson jusqu'à une constante proportionnelle. Cette constante proportionnelle se trouve être la dispersion. La dispersion est considérée comme une nuisanceparamètre. Alors que la routine de maximisation aboutit à une estimation du paramètre de nuisance, cette estimation n'est qu'un artefact des données plutôt qu'une valeur qui se généralise à la population. La dispersion ne sert qu'à «rétrécir» ou «élargir» les SE des paramètres de régression selon que la variance est proportionnellement inférieure ou supérieure à la moyenne. La dispersion étant traitée comme un paramètre de nuisance, les modèles de quasi-ponton bénéficient d'une multitude de propriétés robustes: les données peuvent en fait être hétéroscédastiques (ne répondant pas à l'hypothèse de variance moyenne proportionnelle) et même présenter de petites sources de dépendance, et le modèle moyen n'a pas besoin être exactement correct, mais les IC à 95% pour les paramètres de régression sont asymptotiquement corrects.Si votre objectif de l'analyse des données est de mesurer l'association entre un ensemble de paramètres de régression et le résultat, les modèles de quasi-ponton sont généralement la voie à suivre. Une limitation de ces modèles est qu'ils ne peuvent pas fournir d'intervalles de prédiction, les résidus de Pearson ne peuvent pas vous en dire beaucoup sur la précision du modèle moyen, et des critères d'information comme l'AIC ou le BIC ne peuvent pas comparer efficacement ces modèles à d'autres types de modèles.

Modèles binomiaux négatifs

Il est très utile de comprendre la régression binomiale négative comme une régression de Poisson à 2 paramètres. Le modèle moyen est le même que dans les modèles de Poisson et Quasipoisson où le log du résultat est une combinaison linéaire de prédicteurs. De plus, le paramètre "échelle" modélise une relation moyenne-variance où la variance est simplement proportionnelle à la moyenne comme précédemment. Cependant, à la différence des modèles quasipoisson, ce type de modèle est une procédure basée sur la vraisemblance exacte. Dans ce cas, la dispersion est un paramètre réel qui a une certaine étendue de généralisation à la population. Cela présente quelques avantages par rapport au quasipoisson mais, à mon avis, impose plus d'hypothèses (non vérifiables). Contrairement aux modèles quasipoisson: les données doivent être indépendantes, le modèle moyen doit être correct et le paramètre d'échelle doit être homoscédastique sur toute la plage des valeurs ajustées pour obtenir une inférence correcte. Cependant, ceux-ci peuvent être évalués quelque peu en inspectant les résidus de Pearson, et le modèle produit des prévisions et des intervalles de prédiction viables, et se prête à une comparaison avec des critères d'information.

Les modèles de probabilité binomiale négative proviennent d'un mélange Poisson-Gamma. Autrement dit, il existe une variable aléatoire Gamma fluctuante inconnue "alimentant" le paramètre de taux de Poisson. Étant donné que l'ajustement NB GLM est basé sur la probabilité, il est généralement utile d'énoncer des croyances antérieures sur le mécanisme de génération de données et de les relier à la justification probabiliste du modèle en question. Par exemple, si je teste le nombre de coureurs abandonnant les courses d'endurance de 24 heures, je pourrais considérer que les conditions environnementales sont toutes des facteurs de stress que je n'ai pas mesurés et contribuent ainsi au risque de DNF, comme l'humidité ou la température froide affectant le pneu la traction et donc le risque de spin-out et d'épave.

Modèles pour les données dépendantes: GLMM vs GEE

Les modèles mixtes linéaires généralisés (GLMM) pour les données de Poisson ne se comparent pas aux approches ci-dessus. Les GLMM répondent à une question différente et sont utilisés dans différentes structures de données. Ici, les sources de dépendance entre les données sont mesurées explicitement. Les GLMM utilisent des interceptions et des pentes aléatoires pour tenir compte de l'hétérogénéité au niveau individuel. Cela modifie ce que nous estimons. Les effets aléatoires modifient la moyenne et la variance qui est modélisée plutôt que simplement la variance comme nous l'avons vu ci-dessus.

Il existe deux niveaux d'association possibles qui peuvent être mesurés dans les données dépendantes: le niveau de la population (marginal) et le niveau individuel (conditionnel). Les GLMM prétendent mesurer les associations au niveau individuel (conditionnelles): c'est-à-dire, étant donné la multitude de contributeurs au niveau individuel au résultat, quel est l'effet relatif d'une combinaison de prédicteurs. Par exemple, les cours de préparation aux examens peuvent avoir peu d'effet sur les enfants qui fréquentent des écoles exemplaires, tandis que les enfants des quartiers défavorisés peuvent en bénéficier énormément. L'effet au niveau individuel est alors considérablement plus élevé dans cette circonstance, car les enfants favorisés sont trop loin au-dessus de la courbe en termes d'expositions positives.

Si nous appliquions naïvement des modèles quasipoisson ou binomiaux négatifs à des données dépendantes, les modèles NB seraient erronés et les modèles Quasipoisson seraient inefficaces. Le GEE, cependant, étend le modèle de quasipoisson pour modéliser explicitement les structures de dépendance comme le GLMM, mais le GEE mesure une tendance marginale (au niveau de la population) et obtient les poids corrects, les erreurs standard et l'inférence.

Exemple d'analyse de données:

Ce message est déjà trop long :) Il y a une belle illustration des deux premiers modèles dans ce tutoriel , ainsi que des références à plus de lecture si vous êtes intéressé. Les données en question concernent les habitudes de nidification des crabes en fer à cheval: les femelles sont assises dans des nids et les mâles (satellites) s'y attachent. Les enquêteurs ont voulu mesurer le nombre de mâles attachés à une femelle en fonction des caractéristiques de la femelle. J'espère avoir souligné pourquoi les modèles mixtes ne sont pas comparables: si vous avez des données dépendantes, vous devez utiliser le bon modèle pour la question à laquelle ces données dépendantes tentent de répondre, soit un GLM ou un GEE.

Les références:

[1] Agresti, analyse des données catégorielles 2e édition

[2] Diggle, Heagerty, Liang, Zeger, Analysis of Longitudinal Data 2nd ed.

AdamO
la source