GLM avec des données continues empilées à zéro

11

J'essaie de lancer un modèle pour estimer dans quelle mesure les maladies catastrophiques telles que la tuberculose, le sida, etc. affectent les dépenses d'hospitalisation. J'ai "par coût d'hospitalisation" comme variable dépendante et divers marqueurs individuels comme variables indépendantes, qui sont presque toutes factices comme le sexe, le statut de chef de ménage, le statut de pauvreté et bien sûr un mannequin pour savoir si vous avez la maladie (plus l'âge et l'âge au carré) et un tas de termes d'interaction.

Comme on pouvait s'y attendre, il y a une quantité importante - et je veux dire beaucoup - de données empilées à zéro (c'est-à-dire aucune dépense d'hospitalisation au cours de la période de référence de 12 mois). Quelle serait la meilleure façon de traiter de telles données?

À partir de maintenant, j'ai décidé de convertir le coût en ln(1+cost)afin d'inclure toutes les observations, puis d'exécuter un modèle linéaire. Suis-je sur la bonne voie?

user42372
la source
1
Votre réponse est-elle réellement un décompte? Le terme que vous recherchez est zéro inflation .
gung - Rétablir Monica
2
On peut aussi avoir des distributions continues gonflées à zéro; il existe par exemple des modèles gamma gonflés à zéro.
Glen_b -Reinstate Monica
1
@Glen_b, c'est ce que j'avais en tête. Mais je n'en ai jamais fait. La suggestion de Frank Harrell d'OLR est également une manière intelligente de contourner le problème.
gung - Rétablir Monica

Réponses:

8

OuiOuiX

OuiOui

Frank Harrell
la source
8

Le regroupement à 0 est appelé "inflation zéro". De loin, les cas les plus courants sont les modèles de comptage, conduisant à une régression binomiale négative de Poisson et à une régression binomiale négative. Cependant, il existe des moyens de modéliser une inflation zéro avec des valeurs positives réelles (par exemple, un modèle gamma gonflé à zéro).

Voir Min et Agresti, 2002, Modélisation de données non négatives avec agrégation à zéro pour une revue de ces méthodes.

Peter Flom - Réintégrer Monica
la source
1

La suggestion d'utiliser un modèle de Poisson gonflé à zéro est un début intéressant. Il a certains avantages de modéliser conjointement la probabilité d'avoir des coûts liés à la maladie ainsi que le processus de détermination de ces coûts en cas de maladie. Il a la limitation d'imposer une structure stricte sur la forme du résultat, à condition d'avoir engagé des coûts (par exemple, une relation moyenne-variance spécifique et un résultat entier positif ... ce dernier pouvant être assoupli pour certains fins de modélisation).

Si vous êtes d' accord avec le traitement de l' admission liée à la maladie et les coûts liés à la maladie sous condition à l' admission des processus indépendamment, vous pouvez prolonger ce en modelant le processus binaire y / n avez - vous cumulez les frais liés à la maladie? Il s'agit d'un modèle de régression logistique simple qui vous permet d'évaluer les facteurs de risque et la prévalence. Cela étant, vous pouvez restreindre une analyse au sous-ensemble de personnes ayant accumulé des coûts et modéliser le processus de coût réel à l'aide d'une multitude de techniques de modélisation. Poisson est bon, quasi-poisson serait meilleur (compte tenu des petites sources de covariation non mesurées dans les données et des écarts par rapport aux hypothèses du modèle). Mais le ciel est la limite avec la modélisation du processus de coût continu.

Si vous avez absolument besoin de modéliser la corrélation des paramètres dans le processus, vous pouvez utiliser des estimations bootstrap SE. Je ne vois aucune raison pour laquelle cela ne serait pas valide, mais je serais curieux d'entendre les commentaires des autres si cela pouvait être faux. En général, je pense que ce sont deux questions distinctes et devraient être traitées comme telles pour avoir une inférence valable.

AdamO
la source