Zéro distributions gonflées, quelles sont-elles vraiment?

15

J'ai du mal à comprendre les distributions zéro gonflées. Que sont-ils? À quoi ça sert?

Si j'ai des données avec plusieurs zéros, alors je pourrais ajuster une régression logistique d'abord calculer la probabilité des zéros, puis je pourrais supprimer tous les zéros, puis ajuster une régression régulière en utilisant mon choix de distribution (poisson par exemple).

Puis quelqu'un m'a dit "hé, utilisez une distribution gonflée à zéro", mais en le regardant, cela ne semble pas faire quelque chose de différent de ce que j'ai suggéré ci-dessus? Il a un paramètre régulier , puis un autre paramètre pour modéliser la probabilité de zéro? Il fait juste les deux choses en même temps non?pμp

Calro
la source
3
Pourquoi supprimez-vous tous les zéros? vous pouvez le faire ensemble, vous devez d'abord calculer la probabilité de 0 et 1 et l'utiliser comme poids pour votre distribution de Poisson qui est un modèle gonflé à zéro (distribution). Lisez ceci, il est assez clair en.wikipedia.org/wiki/Zero-inflated_model
Deep North

Réponses:

13

ajuster une régression logistique d'abord calculer la probabilité de zéros, puis je pourrais supprimer tous les zéros, puis ajuster une régression régulière en utilisant mon choix de distribution (poisson par exemple)

Vous avez absolument raison. C'est une façon d'adapter un modèle à gonflage nul (ou, comme le souligne Achim Zeileis dans les commentaires, il s'agit strictement d'un "modèle à obstacles", que l'on pourrait considérer comme un cas particulier d'un modèle à gonflage nul).

La différence entre la procédure que vous avez décrite et un modèle «tout-en-un» gonflé à zéro est la propagation des erreurs. Comme toutes les autres procédures en deux étapes dans les statistiques, l'incertitude globale de vos prédictions à l'étape 2 ne tiendra pas compte de l'incertitude quant à savoir si la prédiction doit être 0 ou non.

Parfois, c'est un mal nécessaire. Heureusement, ce n'est pas nécessaire dans ce cas. Dans R, vous pouvez utiliser pscl::hurdle()ou fitdistrplus::fitdist().

shadowtalker
la source
pouvez-vous expliquer cela "l'incertitude globale de vos prédictions à l'étape 2 ne tiendra pas compte de l'incertitude quant à savoir si la prédiction doit être 0 ou non"? Lorsque vous faites un Zip Poisson, vous multipliez la probabilité de la première partie à la fonction de vraisemblance du modèle de Poisson, donc l'étape 2 prendra en compte l'incertitude du 0 ou 1.
Deep North
1
P(Oui=1|X=X)=0,510,51
3
@ssdecontrol Habituellement, cela n'est pas appelé un modèle gonflé à zéro, mais un modèle à obstacle (par exemple, pscl::hurdle()). Et pour obtenir un ajustement correct, la distribution utilisée pour les données sans zéros doit être tronquée à zéro (ou ne pas conduire à des zéros en premier lieu). Voir ma réponse pour plus de détails.
Achim Zeileis
9

L'idée de base que vous décrivez est une approche valable et elle est souvent appelée un modèle d'obstacle (ou modèle en deux parties) plutôt qu'un modèle gonflé à zéro .

Cependant, il est crucial que le modèle des données non nulles prenne en compte la suppression des zéros. Si vous ajustez un modèle de Poisson aux données sans zéros, cela produira presque certainement un mauvais ajustement car la distribution de Poisson a toujours une probabilité positive de zéro. L'alternative naturelle consiste à utiliser une distribution de Poisson tronquée à zéro, qui est l'approche classique de la régression des obstacles pour les données de dénombrement.

La principale différence entre les modèles gonflés à zéro et les modèles d'obstacles est la probabilité qui est modélisée dans la partie binaire de la régression. Pour les modèles d'obstacles, il s'agit simplement de la probabilité de zéro par rapport à non nul. Dans les modèles à gonflage nul , c'est la probabilité d'avoir un excès de zéro , c'est-à-dire la probabilité d'un zéro qui n'est pas causé par la distribution non gonflée (par exemple, Poisson).

Pour une discussion sur les modèles d'obstacle et d'inflation zéro pour les données de comptage dans R, consultez notre manuscrit publié dans JSS et également envoyé sous forme de vignette dans le psclpackage: http://dx.doi.org/10.18637/jss.v027.i08

Achim Zeileis
la source
7

Ce que ssdecontrol a dit est très correct. Mais j'aimerais ajouter quelques sous à la discussion.

Je viens de regarder la conférence sur les modèles Zero Inflated pour les données de comptage de Richard McElreath sur YouTube.

Il est logique d'estimer p tout en contrôlant les variables qui expliquent le taux du modèle de Poisson pur, surtout si vous considérez que la probabilité qu'un zéro observé provienne de la distribution de Poisson n'est pas de 100%.

Distributions gonflées zéro en tant que modèle à plusieurs niveaux

Cela a également un sens lorsque vous considérez les paramètres du modèle, car vous vous retrouvez avec deux variables à estimer, p et le taux du modèle de Poisson, et deux équations, le cas où le compte est nul et le cas où le compte est différent de zéro.

Source de l'image: Repenser les statistiques - Un cours bayésien avec des exemples en R et Stan par Richard McElreath

Modifier : faute de frappe

Guilherme Marthe
la source
Les références aux matériels d'apprentissage sont appréciées ... mais comment cela répond-il à la question posée? Cela ressemble à un commentaire publié comme réponse ...
RTbecard