Pourquoi choisiraient-ils une distribution gamma ici?

14

Dans l'un des exercices de mon cours, nous utilisons un ensemble de données médicales Kaggle .

L'exercice dit:

nous voulons modéliser la distribution des charges individuelles et nous voulons aussi vraiment pouvoir saisir notre incertitude sur cette distribution afin de mieux saisir la plage de valeurs que nous pourrions voir. Chargement des données et exécution d'une vue initiale:

terrain

On peut soupçonner d'après ce qui précède qu'il y a une sorte de distribution de type exponentielle en jeu ici. ... Les frais de réclamation d'assurance peuvent être multimodaux. La distribution gamma peut être applicable et nous pourrions tester cela pour la distribution des frais qui n'étaient pas des réclamations d'assurance en premier.

J'ai recherché "Distribution gamma" et trouvé "une distribution unimodale continue, positive uniquement, qui code le temps requis pour que les événements" alpha "se produisent dans un processus de Poisson avec un temps d'arrivée moyen de" beta ""

Il n'y a pas de temps ici, juste des frais non liés, assurés ou non.

Pourquoi choisiraient-ils une distribution gamma?

Vicki B
la source

Réponses:

27

Lorsque vous envisagez des modèles paramétriques simples pour la distribution conditionnelle des données (c'est-à-dire la distribution de chaque groupe ou la distribution attendue pour chaque combinaison de variables prédictives) et que vous avez affaire à une distribution continue positive , les deux choix courants sont Gamma et log-Normal . En plus de satisfaire la spécification du domaine de la distribution (nombres réels supérieurs à zéro), ces distributions sont pratiques sur le plan du calcul et ont souvent un sens mécanique.

  • La distribution log-normale est facilement dérivée en exponentiant une distribution normale (à l'inverse, les écarts log-normaux transformant les journaux donnent des écarts normaux). D'un point de vue mécaniste, le log-normal apparaît via le théorème de la limite centrale lorsque chaque observation reflète le produit d'un grand nombre de variables aléatoires iid. Une fois que vous avez transformé les données en journal, vous avez accès à une grande variété d'outils de calcul et d'analyse (par exemple, tout ce qui suppose la normalité ou l'utilisation de méthodes des moindres carrés).
  • Comme le souligne votre question, une façon dont une distribution Gamma se produit est que la distribution des temps d'attente jusqu'à ce que événements indépendants avec un temps d'attente constant se produisent. Je ne peux pas facilement trouver une référence pour un modèle mécaniste de distributions gamma des réclamations d'assurance, mais il est également logique d'utiliser une distribution gamma d'un point de vue phénoménologique (c.-à-d. Description des données / commodité de calcul). La distribution gamma fait partie de la famille exponentielle (qui comprend le normal mais pas le log-normal), ce qui signifie que toutes les machines des modèles linéaires généralisésnλest disponible; il a également une forme d'analyse particulièrement pratique.

Il y a d'autres raisons pour lesquelles on pourrait choisir l'une ou l'autre - par exemple, la «lourdeur» de la queue de la distribution , qui pourrait être importante pour prédire la fréquence des événements extrêmes. Il existe de nombreuses autres distributions positives et continues (voir par exemple cette liste ), mais elles ont tendance à être utilisées dans des applications plus spécialisées.

Très peu de ces distributions captureront la multimodalité que vous voyez dans les distributions marginales ci-dessus, mais la multimodalité peut s'expliquer par le regroupement des données en catégories décrites par les prédicteurs catégoriques observés. S'il n'y a pas de prédicteurs observables qui expliquent la multimodalité, on pourrait choisir d'adapter un modèle de mélange fini basé sur un mélange d'un nombre (petit, discret) de distributions continues positives.

Ben Bolker
la source
1
il convient également de noter que les modèles gamma et log-normaux donnent presque toujours des résultats très similaires
carlo
2
Je travaille dans la recherche sur les services de santé. Je peux confirmer qu'en général, une distribution gamma ou log-normale serait un choix approprié pour un modèle de dépenses de santé ou de montants de réclamation. La distribution gamma peut être utilisée à temps pour les modèles d'événements, mais ceux-ci ne sont pas applicables ici.
Weiwen Ng
Merci!! Ce fut très utile.
Vicki B