Quand utiliser des GLM gamma?

88

La distribution gamma peut prendre une assez grande variété de formes et, étant donné le lien entre la moyenne et la variance à travers ses deux paramètres, elle semble appropriée pour traiter l'hétéroscédasticité dans des données non négatives, de manière à ce que les log ne vous faites pas sans WLS ni une sorte d'estimateur VCV cohérent avec l'hétéroscédasticité.

Je l'utiliserais davantage pour la modélisation de données non négative de routine, mais je ne connais personne d'autre qui l'utilise, je ne l'ai pas apprise dans une salle de classe formelle et la littérature que j'ai lue ne l'utilise jamais. Chaque fois que je recherche quelque chose du genre "utilisations pratiques du GLM gamma" sur Google, je me fais un conseil de l’utiliser pour les temps d’attente entre les événements de Poisson. D'ACCORD. Mais cela semble restrictif et ne peut en être le seul usage.

Naïvement, il semble que le GLM gamma soit un moyen relativement léger de modéliser des données non négatives, compte tenu de la souplesse du gamma. Bien sûr, vous devez vérifier les tracés QQ et les tracés résiduels comme pour tout modèle. Mais y a-t-il des inconvénients graves qui me manquent? Au-delà de la communication avec les personnes qui "ne font que lancer OLS"?

utilisateur_générique
la source

Réponses:

57

Le gamma a une propriété partagée par le lognormal; à savoir que lorsque le paramètre de forme est maintenu constant pendant que le paramètre d'échelle est modifié (comme c'est habituellement le cas lorsque vous utilisez l'un des modèles), la variance est proportionnelle à la moyenne quadratique (coefficient de variation constant).

Quelque chose d'approximatif à cela se produit assez souvent avec les données financières, voire avec beaucoup d'autres types de données.

En conséquence, il convient souvent aux données continues, positives, asymétriques à droite et où la variance est presque constante à l’échelle logarithmique, bien qu’il existe un certain nombre d’autres choix bien connus (et souvent assez facilement disponibles). Propriétés.

En outre, il est courant d’adapter un lien de journal au GLM gamma (il est relativement plus rare d’utiliser le lien naturel). Ce qui le rend légèrement différent de l'ajustement d'un modèle linéaire normal aux journaux des données, c'est qu'à l'échelle du journal, le gamma est laissé incliné à des degrés divers, tandis que la normale (le journal d'un log-normal) est symétrique. Cela le rend (le gamma) utile dans diverses situations.

J'ai vu des utilisations pratiques des GLM gamma discutées (avec des exemples de données réelles) dans (de mémoire) de Jong & Heller et Frees ainsi que dans de nombreux articles; J'ai également vu des applications dans d'autres domaines. Oh, et si je me souviens bien, Venables et Ripley's MASS l’ utilisent pour lutter contre l’absentéisme à l’école (les données quine; Edit: en fait, c’est effectivement dans Statistics Complements to MASS , voir p11, 14e page du pdf, il contient un lien il y a un petit décalage de la DV). Euh, et McCullagh et Nelder ont donné un exemple de coagulation du sang, bien que ce soit peut-être un lien naturel.

Il y a ensuite le livre de Faraway dans lequel il a donné un exemple d'assurance de voiture et un exemple de données de fabrication de semi-conducteurs.

Il y a des avantages et des inconvénients à choisir l'une ou l'autre des deux options. Depuis ces jours, les deux sont faciles à adapter; c'est généralement une question de choix de ce qui convient le mieux.

C'est loin d'être la seule option; Par exemple, il y a aussi les GLMs à gaussie inverse, qui ont une queue plus lourde (et même plus hétéroskédastique) que gamma ou lognormale.

En ce qui concerne les inconvénients, il est plus difficile de faire des intervalles de prédiction. Certains écrans de diagnostic sont plus difficiles à interpréter. Le calcul des attentes à l’échelle du prédicteur linéaire (généralement l’échelle logarithmique) est plus difficile que pour le modèle lognormal équivalent. Les tests d'hypothèses et les intervalles sont généralement asymptotiques. Ce sont souvent des problèmes relativement mineurs.

Elle présente certains avantages par rapport à la régression log-normale log-link (prendre des journaux et adapter un modèle de régression linéaire ordinaire); on est que la prédiction moyenne est facile.

Glen_b
la source
3
Devrait-il être "gamma" ou "gamma"? Nous savons que ce n'est pas nommé pour une personne. J'ai vu des minuscules "g" beaucoup plus souvent. Clairement, la distribution porte le nom de la fonction, qui remonte au 18ème siècle.
Nick Cox
2
La notation est la seule raison pour laquelle j'ai vu pour cette utilisation. Avec les distributions en général, les majuscules renvoient généralement aux noms de famille, par exemple Poisson ou Gaussien, comme vous le savez. Γ
Nick Cox
@ NickCox Je l'ai changé comme vous le suggérez, et j'ai corrigé "Inverse Gaussien" pendant que j'y étais.
Glen_b
1
@Gleb_b: Utilisez-vous toujours le lien de journal avec la famille gaussienne inverse?
Dimitriy V. Masterov
@ DimitriyV.Masterov Il est moins utilisé, donc il est plus difficile de généraliser. D'après ce que j'ai vu, il est assez courant d'utiliser un lien de journal avec une gaussienne inverse, mais d'autres liens peuvent convenir dans certaines situations, comme un lien inverse.
Glen_b
28

C'est une bonne question. En fait, pourquoi ne pas utiliser davantage de modèles linéaires généralisés (GLM) est également une bonne question.

Avertissement: certaines personnes utilisent GLM pour les modèles linéaires généraux, mais pas ce que l’on pense ici.

  • Cela dépend où vous regardez. Par exemple, les distributions gamma sont populaires dans plusieurs sciences de l'environnement depuis quelques décennies et la modélisation à l'aide de variables prédictives est également une extension naturelle. Il existe de nombreux exemples en hydrologie et en géomorphologie, pour ne citer que quelques domaines dans lesquels je me suis égaré.

  • Il est difficile de déterminer avec précision quand l'utiliser au-delà d'une réponse vide ou lorsque cela fonctionne le mieux. Compte tenu des données positives asymétriques, je me trouverai souvent en train d'essayer des modèles gamma et lognormaux (dans un lien de journal de contexte GLM, famille normale ou gaussienne) et de choisir celui qui fonctionne le mieux.

  • La modélisation gamma est restée assez difficile à faire jusqu'à récemment, certainement par rapport à la prise de journaux et à l'application de régressions linéaires, sans écrire beaucoup de code vous-même. Même maintenant, je suppose que ce n'est pas aussi facile dans tous les principaux environnements de logiciels statistiques.

  • En expliquant ce qui est utilisé et ce qui ne l’est pas, malgré les mérites et les démérites, je pense que vous définissez toujours exactement le type de facteurs que vous identifiez: ce qui est enseigné, ce qui est écrit dans la littérature que les gens lisent, travail et lors de conférences. Il faut donc une sorte de sociologie des sciences amateur pour l'expliquer. La plupart des gens semblent suivre des chemins rectilignes et étroits dans leurs propres champs. En gros, plus la littérature interne est vaste dans tous les domaines des techniques de modélisation, moins les gens semblent enclins à essayer quelque chose de différent.

Nick Cox
la source
1
Comment déterminez-vous lequel fonctionne le mieux?
Dimitriy V. Masterov
7
Je regarde les probabilités, les R-carrés (malgré ce que disent les gens), les intervalles de confiance autour des estimations de paramètres, les diagrammes du rapport observé / ajusté, du résidu vs ajusté, etc. S'il y avait une science qui privilégiait un modèle, cela mon expérience la science n'est pas si bien formée. Comment pourrait-il en être autrement?
Nick Cox
@ NickCox Que devrions-nous surveiller lorsque l'analyse est observée par rapport à la courbe ajustée, les résidus par rapport à la courbe ajustée et normale? Je comprends que cela peut différer d’un modèle à l’autre. Pourriez-vous donner un exemple pour gamma, poisson et binôme négatif? Merci
tatami
@ Statami C'est une toute nouvelle question, ou plus, je pense. Si vous le demandez, vous verrez qui mord. Je n'ai jamais pensé qu'un modèle gamma et un modèle binomial négatif soient des rivaux dans un projet, mais cela pourrait être un manque d'imagination ou d'expérience.
Nick Cox
13

La régression gamma est dans le GLM et vous pouvez donc obtenir de nombreuses quantités utiles à des fins de diagnostic, telles que les résidus de déviance, les effets de levier, la distance de Cook, etc. Elles ne sont peut-être pas aussi belles que les quantités correspondantes pour les données transformées par log.

Une chose que la régression gamma évite par rapport au lognormal est le biais de transformation. L'inégalité de Jensen implique que les prédictions de la régression lognormale seront systématiquement biaisées, car il s'agit de modéliser des données transformées plutôt que la valeur attendue transformée.

En outre, la régression gamma (ou d’autres modèles pour les données non négatives) peut prendre en charge un plus large éventail de données que le lognormal car il peut avoir un mode à 0, comme dans la distribution exponentielle, qui est dans le gamma. famille, ce qui est impossible pour le lognormal.

J'ai lu des suggestions selon lesquelles l'utilisation de la probabilité de Poisson comme quasi-probabilité est plus stable. Ils sont conjugués les uns des autres. Le quasi-Poisson présente également l'avantage substantiel de pouvoir gérer des valeurs de 0 exactes qui gênent à la fois le gamma et, en particulier, le lognormal.

Jay Verkuilen
la source
11

À mon avis, cela suppose que les erreurs se trouvent dans une famille de distributions gamma, ayant les mêmes formes et dont les échelles changent en fonction de la formule correspondante.

Mais il est difficile de faire un diagnostic de modèle. Notez que le graphique QQ simple ne convient pas ici, car il s'agit de la même distribution, alors que notre famille est une famille de distributions avec des variances différentes.

Naïvement, le graphique des résidus peut être utilisé pour voir qu'ils ont des échelles différentes mais la même forme, généralement avec de longues queues.

D'après mon expérience, le GLM gamma peut être utilisé pour certains problèmes distribués à longue traînée, et il est largement utilisé dans les secteurs de l'assurance et de l'environnement, etc. proposez d’utiliser d’autres distributions familiales avec le même problème, comme le gaussien inverse, etc. En pratique, il semble que de tels choix dépendent du jugement d’experts avec l’expérience industrielle. Cela limite l'utilisation du gamma GLM.

Vincent
la source