J'ai du mal à comprendre les distributions zéro gonflées. Que sont-ils? À quoi ça sert?
Si j'ai des données avec plusieurs zéros, alors je pourrais ajuster une régression logistique d'abord calculer la probabilité des zéros, puis je pourrais supprimer tous les zéros, puis ajuster une régression régulière en utilisant mon choix de distribution (poisson par exemple).
Puis quelqu'un m'a dit "hé, utilisez une distribution gonflée à zéro", mais en le regardant, cela ne semble pas faire quelque chose de différent de ce que j'ai suggéré ci-dessus? Il a un paramètre régulier , puis un autre paramètre pour modéliser la probabilité de zéro? Il fait juste les deux choses en même temps non?p
zero-inflation
Calro
la source
la source
Réponses:
Vous avez absolument raison. C'est une façon d'adapter un modèle à gonflage nul (ou, comme le souligne Achim Zeileis dans les commentaires, il s'agit strictement d'un "modèle à obstacles", que l'on pourrait considérer comme un cas particulier d'un modèle à gonflage nul).
La différence entre la procédure que vous avez décrite et un modèle «tout-en-un» gonflé à zéro est la propagation des erreurs. Comme toutes les autres procédures en deux étapes dans les statistiques, l'incertitude globale de vos prédictions à l'étape 2 ne tiendra pas compte de l'incertitude quant à savoir si la prédiction doit être 0 ou non.
Parfois, c'est un mal nécessaire. Heureusement, ce n'est pas nécessaire dans ce cas. Dans R, vous pouvez utiliser
pscl::hurdle()
oufitdistrplus::fitdist()
.la source
pscl::hurdle()
). Et pour obtenir un ajustement correct, la distribution utilisée pour les données sans zéros doit être tronquée à zéro (ou ne pas conduire à des zéros en premier lieu). Voir ma réponse pour plus de détails.L'idée de base que vous décrivez est une approche valable et elle est souvent appelée un modèle d'obstacle (ou modèle en deux parties) plutôt qu'un modèle gonflé à zéro .
Cependant, il est crucial que le modèle des données non nulles prenne en compte la suppression des zéros. Si vous ajustez un modèle de Poisson aux données sans zéros, cela produira presque certainement un mauvais ajustement car la distribution de Poisson a toujours une probabilité positive de zéro. L'alternative naturelle consiste à utiliser une distribution de Poisson tronquée à zéro, qui est l'approche classique de la régression des obstacles pour les données de dénombrement.
La principale différence entre les modèles gonflés à zéro et les modèles d'obstacles est la probabilité qui est modélisée dans la partie binaire de la régression. Pour les modèles d'obstacles, il s'agit simplement de la probabilité de zéro par rapport à non nul. Dans les modèles à gonflage nul , c'est la probabilité d'avoir un excès de zéro , c'est-à-dire la probabilité d'un zéro qui n'est pas causé par la distribution non gonflée (par exemple, Poisson).
Pour une discussion sur les modèles d'obstacle et d'inflation zéro pour les données de comptage dans R, consultez notre manuscrit publié dans JSS et également envoyé sous forme de vignette dans le
pscl
package: http://dx.doi.org/10.18637/jss.v027.i08la source
Ce que ssdecontrol a dit est très correct. Mais j'aimerais ajouter quelques sous à la discussion.
Je viens de regarder la conférence sur les modèles Zero Inflated pour les données de comptage de Richard McElreath sur YouTube.
Il est logique d'estimer p tout en contrôlant les variables qui expliquent le taux du modèle de Poisson pur, surtout si vous considérez que la probabilité qu'un zéro observé provienne de la distribution de Poisson n'est pas de 100%.
Cela a également un sens lorsque vous considérez les paramètres du modèle, car vous vous retrouvez avec deux variables à estimer, p et le taux du modèle de Poisson, et deux équations, le cas où le compte est nul et le cas où le compte est différent de zéro.
Source de l'image: Repenser les statistiques - Un cours bayésien avec des exemples en R et Stan par Richard McElreath
Modifier : faute de frappe
la source