Le gamma a une propriété partagée par le lognormal; à savoir que lorsque le paramètre de forme est maintenu constant pendant que le paramètre d'échelle est modifié (comme c'est habituellement le cas lorsque vous utilisez l'un des modèles), la variance est proportionnelle à la moyenne quadratique (coefficient de variation constant).
Quelque chose d'approximatif à cela se produit assez souvent avec les données financières, voire avec beaucoup d'autres types de données.
En conséquence, il convient souvent aux données continues, positives, asymétriques à droite et où la variance est presque constante à l’échelle logarithmique, bien qu’il existe un certain nombre d’autres choix bien connus (et souvent assez facilement disponibles). Propriétés.
En outre, il est courant d’adapter un lien de journal au GLM gamma (il est relativement plus rare d’utiliser le lien naturel). Ce qui le rend légèrement différent de l'ajustement d'un modèle linéaire normal aux journaux des données, c'est qu'à l'échelle du journal, le gamma est laissé incliné à des degrés divers, tandis que la normale (le journal d'un log-normal) est symétrique. Cela le rend (le gamma) utile dans diverses situations.
J'ai vu des utilisations pratiques des GLM gamma discutées (avec des exemples de données réelles) dans (de mémoire) de Jong & Heller et Frees ainsi que dans de nombreux articles; J'ai également vu des applications dans d'autres domaines. Oh, et si je me souviens bien, Venables et Ripley's MASS l’ utilisent pour lutter contre l’absentéisme à l’école (les données quine; Edit: en fait, c’est effectivement dans Statistics Complements to MASS , voir p11, 14e page du pdf, il contient un lien il y a un petit décalage de la DV). Euh, et McCullagh et Nelder ont donné un exemple de coagulation du sang, bien que ce soit peut-être un lien naturel.
Il y a ensuite le livre de Faraway dans lequel il a donné un exemple d'assurance de voiture et un exemple de données de fabrication de semi-conducteurs.
Il y a des avantages et des inconvénients à choisir l'une ou l'autre des deux options. Depuis ces jours, les deux sont faciles à adapter; c'est généralement une question de choix de ce qui convient le mieux.
C'est loin d'être la seule option; Par exemple, il y a aussi les GLMs à gaussie inverse, qui ont une queue plus lourde (et même plus hétéroskédastique) que gamma ou lognormale.
En ce qui concerne les inconvénients, il est plus difficile de faire des intervalles de prédiction. Certains écrans de diagnostic sont plus difficiles à interpréter. Le calcul des attentes à l’échelle du prédicteur linéaire (généralement l’échelle logarithmique) est plus difficile que pour le modèle lognormal équivalent. Les tests d'hypothèses et les intervalles sont généralement asymptotiques. Ce sont souvent des problèmes relativement mineurs.
Elle présente certains avantages par rapport à la régression log-normale log-link (prendre des journaux et adapter un modèle de régression linéaire ordinaire); on est que la prédiction moyenne est facile.
C'est une bonne question. En fait, pourquoi ne pas utiliser davantage de modèles linéaires généralisés (GLM) est également une bonne question.
Avertissement: certaines personnes utilisent GLM pour les modèles linéaires généraux, mais pas ce que l’on pense ici.
Cela dépend où vous regardez. Par exemple, les distributions gamma sont populaires dans plusieurs sciences de l'environnement depuis quelques décennies et la modélisation à l'aide de variables prédictives est également une extension naturelle. Il existe de nombreux exemples en hydrologie et en géomorphologie, pour ne citer que quelques domaines dans lesquels je me suis égaré.
Il est difficile de déterminer avec précision quand l'utiliser au-delà d'une réponse vide ou lorsque cela fonctionne le mieux. Compte tenu des données positives asymétriques, je me trouverai souvent en train d'essayer des modèles gamma et lognormaux (dans un lien de journal de contexte GLM, famille normale ou gaussienne) et de choisir celui qui fonctionne le mieux.
La modélisation gamma est restée assez difficile à faire jusqu'à récemment, certainement par rapport à la prise de journaux et à l'application de régressions linéaires, sans écrire beaucoup de code vous-même. Même maintenant, je suppose que ce n'est pas aussi facile dans tous les principaux environnements de logiciels statistiques.
En expliquant ce qui est utilisé et ce qui ne l’est pas, malgré les mérites et les démérites, je pense que vous définissez toujours exactement le type de facteurs que vous identifiez: ce qui est enseigné, ce qui est écrit dans la littérature que les gens lisent, travail et lors de conférences. Il faut donc une sorte de sociologie des sciences amateur pour l'expliquer. La plupart des gens semblent suivre des chemins rectilignes et étroits dans leurs propres champs. En gros, plus la littérature interne est vaste dans tous les domaines des techniques de modélisation, moins les gens semblent enclins à essayer quelque chose de différent.
la source
La régression gamma est dans le GLM et vous pouvez donc obtenir de nombreuses quantités utiles à des fins de diagnostic, telles que les résidus de déviance, les effets de levier, la distance de Cook, etc. Elles ne sont peut-être pas aussi belles que les quantités correspondantes pour les données transformées par log.
Une chose que la régression gamma évite par rapport au lognormal est le biais de transformation. L'inégalité de Jensen implique que les prédictions de la régression lognormale seront systématiquement biaisées, car il s'agit de modéliser des données transformées plutôt que la valeur attendue transformée.
En outre, la régression gamma (ou d’autres modèles pour les données non négatives) peut prendre en charge un plus large éventail de données que le lognormal car il peut avoir un mode à 0, comme dans la distribution exponentielle, qui est dans le gamma. famille, ce qui est impossible pour le lognormal.
J'ai lu des suggestions selon lesquelles l'utilisation de la probabilité de Poisson comme quasi-probabilité est plus stable. Ils sont conjugués les uns des autres. Le quasi-Poisson présente également l'avantage substantiel de pouvoir gérer des valeurs de 0 exactes qui gênent à la fois le gamma et, en particulier, le lognormal.
la source
À mon avis, cela suppose que les erreurs se trouvent dans une famille de distributions gamma, ayant les mêmes formes et dont les échelles changent en fonction de la formule correspondante.
Mais il est difficile de faire un diagnostic de modèle. Notez que le graphique QQ simple ne convient pas ici, car il s'agit de la même distribution, alors que notre famille est une famille de distributions avec des variances différentes.
Naïvement, le graphique des résidus peut être utilisé pour voir qu'ils ont des échelles différentes mais la même forme, généralement avec de longues queues.
D'après mon expérience, le GLM gamma peut être utilisé pour certains problèmes distribués à longue traînée, et il est largement utilisé dans les secteurs de l'assurance et de l'environnement, etc. proposez d’utiliser d’autres distributions familiales avec le même problème, comme le gaussien inverse, etc. En pratique, il semble que de tels choix dépendent du jugement d’experts avec l’expérience industrielle. Cela limite l'utilisation du gamma GLM.
la source