Les tests de sur-dispersion dans les GLM sont-ils réellement * utiles *?

15

Le phénomène de «sur-dispersion» dans un GLM survient chaque fois que nous utilisons un modèle qui restreint la variance de la variable de réponse, et les données présentent une variance plus grande que la restriction du modèle ne le permet. Cela se produit généralement lors de la modélisation des données de comptage à l'aide d'un GLM de Poisson, et cela peut être diagnostiqué par des tests bien connus. Si les tests montrent qu'il existe des preuves statistiquement significatives de sur-dispersion, nous généralisons généralement le modèle en utilisant une famille de distributions plus large qui libère le paramètre de variance de la restriction survenue sous le modèle d'origine. Dans le cas d'un GLM de Poisson, il est courant de généraliser à un GLM binomial négatif ou quasi-Poisson.

Cette situation est enceinte d'une objection évidente. Pourquoi commencer avec un GLM Poisson? On peut commencer directement avec les formes de distribution plus larges, qui ont un paramètre de variance (relativement) libre, et permettre au paramètre de variance d'être ajusté aux données, en ignorant complètement les tests de sur-dispersion. Dans d'autres situations, lorsque nous effectuons une analyse de données, nous utilisons presque toujours des formes de distribution qui permettent la liberté d'au moins les deux premiers moments, alors pourquoi faire une exception ici?

Ma question: Y a - t-il une bonne raison de commencer par une distribution qui fixe la variance (par exemple, la distribution de Poisson) et d'effectuer ensuite un test de sur-dispersion? Comment cette procédure se compare-t-elle au fait de sauter complètement cet exercice et de passer directement aux modèles plus généraux (par exemple, binôme négatif, quasi-Poisson, etc.)? En d'autres termes, pourquoi ne pas toujours utiliser une distribution avec un paramètre de variance libre?

Réintégrer Monica
la source
1
je suppose que, si le sous-jacent est vraiment poisson, votre résultat glm ne présentera pas ces bonnes propriétés bien connues comme les estimations étant également efficaces dans le sens où la variance des estimations est supérieure à ce qu'elle devrait être, si la bonne modèle avait été utilisé. Les estimations ne sont probablement même pas impartiales ou MLE. Mais c'est juste mon intuition et je peux me tromper. Je serais curieux de savoir quelle bonne réponse est.
mlofton
3
D'après mon expérience, les tests de sur-dispersion sont (paradoxalement) principalement utiles lorsque vous savez (à partir d'une connaissance du processus de génération de données) qu'une sur-dispersion ne peut pas être présente. Dans ce contexte, le test de surdispersion vous indique si le modèle linéaire capte tout le signal dans les données. Si ce n'est pas le cas, il faudrait envisager d'ajouter plus de covariables au modèle. Si c'est le cas, alors plus de covariables ne peuvent pas aider.
Gordon Smyth
@GordonSmyth: Je pense que c'est une bonne réponse. Si vous ne voulez pas transformer cela en sa propre réponse, je vais la replier dans la mienne.
Cliff AB
1
@GordonSmyth qui touche à une chose qui m'a toujours dérangé dans l'analyse de la déviance comme test de qualité de l'ajustement: les covariables manquantes sont confondues avec la surdispersion. Cela suggère quelques problèmes concernant la façon dont le matériel est souvent enseigné. J'enseigne une classe en catégories et les manuels scolaires n'insistent pas très fortement sur ce point.
gars
1
@guy Oui, c'est vrai, et les gens ont tendance à supposer que la déviance résiduelle est toujours distribuée en chisquare, ce qui n'est souvent pas le cas. Nous avons essayé de mieux traiter ces points dans notre récent manuel doi.org/10.1007/978-1-4419-0118-7, mais il est difficile de tout couvrir dans les limites de l'espace.
Gordon Smyth

Réponses:

14

En principe, je suis d'accord que dans 99% des cas, il vaut mieux utiliser le modèle plus flexible. Cela dit, voici deux arguments et demi pour expliquer pourquoi vous ne pourriez pas.

(1) Moins flexible signifie des estimations plus efficaces. Étant donné que les paramètres de variance ont tendance à être moins stables que les paramètres moyens, votre hypothèse de relation moyenne-variance fixe peut davantage stabiliser les erreurs standard.

(2) Vérification du modèle. J'ai travaillé avec des physiciens qui croient que diverses mesures peuvent être décrites par des distributions de Poisson dues à la physique théorique. Si nous rejetons l'hypothèse que la moyenne = variance, nous avons des preuves contre l'hypothèse de la distribution de Poisson. Comme indiqué dans un commentaire de @GordonSmyth, si vous avez des raisons de croire qu'une mesure donnée devrait suivre une distribution de Poisson, si vous avez des preuves d'une sur-dispersion, vous avez des preuves que vous manquez des facteurs importants.

Vuner[y]=αE[y]α1

Cliff AB
la source
Sur 2.5: Il y a bien sûr le binôme négatif et le GLMM avec des effets aléatoires qui n'ont pas cette limitation.
Björn
@ Björn: c'est pourquoi ce n'est qu'un demi-argument; ne s'applique qu'aux méthodes de quasi-vraisemblance. Pour autant que je sache, il n'existe aucune méthode basée sur la vraisemblance pour la sous- dispersion, même si cela peut être analysé avec un modèle de quasi-vraisemblance.
Cliff AB
1
Également sur 2.5: ma compréhension est qu'il n'y a pas de famille de dispersion exponentielle qui satisfait la relation souhaitée. Autrement dit, le quasi score ne correspond pas à un véritable score. Cela ne signifie pas qu'il n'y a pas de familles de distributions pour les données de comptage qui satisfassent la relation souhaitée; il devrait y avoir beaucoup de ces familles.
gars le
2
@CliffAB pour les données de comptage sous-dispersées, il existe le modèle Conway-Maxwell-Poisson: en.m.wikipedia.org/wiki/… qui est implémenté dans quelques packages R.
Dimitris Rizopoulos du
Si le modèle va être utilisé pour la prédiction, alors une autre raison de préférer le modèle plus simple est que, si tout le reste est égal, le modèle plus simple aura de meilleures qualités prédictives. Je pense à l'AIC, au BIC et au PAC en général.
meh
11

Bien qu'il s'agisse de ma propre question, je vais également publier ma propre réponse de deux cents, afin que nous ajoutions au nombre de perspectives sur cette question. La question ici est de savoir s'il est judicieux d'adapter initialement une distribution à un paramètre aux données. Lorsque vous utilisez une distribution à un paramètre (comme le GLM de Poisson ou un GLM binomial avec un paramètre d'essai fixe), la variance n'est pas un paramètre libre et est plutôt contrainte d'être une fonction de la moyenne. Cela signifie qu'il est déconseillé d'adapter une distribution à un paramètre aux données dans toute situation où vous n'êtes pas absolument sûr que la variance suit la structure de cette distribution.


Ajuster des distributions à un paramètre aux données est presque toujours une mauvaise idée: les données sont souvent plus compliquées que les modèles proposés ne l'indiquent, et même lorsqu'il existe des raisons théoriques de croire qu'un modèle à un paramètre particulier peut obtenir, il arrive souvent que les données proviennent en fait d'un mélange de cette distribution à un paramètre, avec une plage de valeurs de paramètres. Cela équivaut souvent à un modèle plus large, comme une distribution à deux paramètres qui permet une plus grande liberté pour la variance. Comme expliqué ci-dessous, cela est vrai pour le GLM de Poisson dans le cas des données de comptage.

Comme indiqué dans la question, dans la plupart des applications des statistiques, il est courant d'utiliser des formes de distribution qui permettent au moins aux deux premiers moments de varier librement. Cela garantit que le modèle ajusté permet aux données de dicter la moyenne et la variance inférées, plutôt que de les contraindre artificiellement par le modèle. Le fait d'avoir ce deuxième paramètre ne perd qu'un degré de liberté dans le modèle, ce qui est une perte minime par rapport à l'avantage de permettre d'estimer la variance à partir des données. On peut bien entendu étendre ce raisonnement et ajouter un troisième paramètre pour permettre l'ajustement de l'asymétrie, un quatrième pour permettre l'ajustement du kurtosis, etc.


À quelques exceptions extrêmement mineures, un GLM de Poisson est un mauvais modèle: D'après mon expérience, l'ajustement d'une distribution de Poisson pour compter les données est presque toujours une mauvaise idée. Pour les données de dénombrement, il est extrêmement courant que la variance des données soit «sur-dispersée» par rapport à la distribution de Poisson. Même dans les situations où la théorie pointe vers une distribution de Poisson, le meilleur modèle est souvent un mélange de distributions de Poisson, où la variance devient un paramètre libre. En effet, dans le cas des données de comptage, la distribution binomiale négative est un mélange de Poisson avec une distribution gamma pour le paramètre de taux, donc même quand il y a des raisons théoriques de penser que les dénombrements arrivent selon le processus d'une distribution de Poisson, il arrive souvent qu'il y ait `` sur-dispersion '' et la distribution binomiale négative s'adapte beaucoup mieux.

La pratique d'ajuster un GLM de Poisson pour compter les données, puis de faire un test statistique pour vérifier la «sur-dispersion» est un anachronisme, et ce n'est presque jamais une bonne pratique. Dans d'autres formes d'analyse statistique, nous ne partons pas d'une distribution à deux paramètres, choisissons arbitrairement une restriction de variance, puis testons cette restriction pour essayer d'éliminer un paramètre de la distribution. En faisant les choses de cette façon, nous créons en fait une procédure hybride maladroite, consistant en un test d'hypothèse initial utilisé pour la sélection du modèle, puis le modèle réel (soit Poisson, soit une distribution plus large). Il a été démontré dans de nombreux contextes que ce type de pratique de création de modèles hybrides à partir d'un test de sélection de modèle initial conduit à de mauvais modèles globaux.

Une situation analogue, où une méthode hybride similaire a été utilisée, est dans les tests T de différence moyenne. Auparavant, les cours de statistique recommandaient d'abord d'utiliser le test de Levene (ou même juste quelques "règles empiriques" beaucoup plus fous) pour vérifier l'égalité des variances entre deux populations, puis si les données "réussissaient" ce test, vous le feriez utilisez le test T de Student qui suppose une variance égale, et si les données "échouaient" au test, vous utiliseriez plutôt le test T de Welch. C'est en fait une très mauvaise procédure (voir par exemple ici et ici). Il vaut bien mieux utiliser ce dernier test, qui ne fait aucune hypothèse sur la variance, plutôt que de créer un test composé maladroit qui embrouille un test d'hypothèse préliminaire et l'utilise ensuite pour choisir le modèle.

Pour les données de comptage, vous obtiendrez généralement de bons résultats initiaux en ajustant un modèle à deux paramètres tel qu'un modèle binomial négatif ou quasi-Poisson. (Notez que ce dernier n'est pas une distribution réelle, mais il donne toujours un modèle raisonnable à deux paramètres.) Si une généralisation supplémentaire est nécessaire, c'est généralement l'ajout d'une inflation zéro, où il y a un nombre excessif de zéros dans les données. Restreindre à un GLM de Poisson est un choix de modèle artificiel et insensé, et cela n'est pas beaucoup amélioré en testant la sur-dispersion.


Bon, voici maintenant les exceptions mineures: Les seules vraies exceptions à ce qui précède sont deux situations:

(1) Vous avez des raisons théoriques a priori extrêmement fortes de croire que les hypothèses pour la distribution d'un paramètre sont satisfaites, et une partie de l'analyse consiste à tester ce modèle théorique par rapport aux données; ou

(2) Pour une autre raison (étrange), le but de votre analyse est de mener un test d'hypothèse sur la variance des données, et donc vous voulez réellement limiter cette variance à cette restriction hypothétique, puis tester cette hypothèse.

Ces situations sont très rares. Ils ne surviennent que lorsqu'il existe de solides connaissances théoriques a priori sur le mécanisme de génération de données, et le but de l'analyse est de tester cette théorie sous-jacente. Cela peut être le cas dans une gamme extrêmement limitée d'applications où les données sont générées dans des conditions strictement contrôlées (par exemple, en physique).

Réintégrer Monica
la source