Merci pour la question intéressante!
Différence: Une des limites des modèles de comptage standard est que les zéros et les non-zéros (positifs) sont supposés provenir du même processus de génération de données. Avec les modèles d'obstacles , ces deux processus ne sont pas obligés d'être identiques. L'idée de base est qu'une probabilité de Bernoulli gouverne le résultat binaire de savoir si une variable de comptage a une réalisation nulle ou positive. Si la réalisation est positive, l'obstacle est franchi et la distribution conditionnelle des positifs est régie par un modèle de données à compte tronqué à zéro. Avec des modèles gonflés à zéro, la variable de réponse est modélisée comme un mélange d’une distribution de Bernoulli (ou appelez-la une masse ponctuelle à zéro) et d’une distribution de Poisson (ou de toute autre distribution de comptage prise en charge sur des entiers non négatifs). Pour plus de détails et de formules, voir, par exemple, Gurmu et Trivedi (2011) et Dalrymple, Hudson et Ford (2003).
Exemple: les modèles d'obstacles peuvent être motivés par des processus de prise de décision séquentiels auxquels les individus sont confrontés. Vous décidez d’abord si vous devez acheter quelque chose, puis vous décidez de la quantité de ce quelque chose (qui doit être positif). Lorsque vous êtes autorisé à acheter (ou que vous pouvez potentiellement) ne rien acheter après votre décision d'acheter quelque chose, c'est un exemple de situation dans laquelle un modèle à gonflement nul est approprié. Les zéros peuvent provenir de deux sources: a) aucune décision d'achat; b) voulait acheter mais n'a finalement rien acheté (par exemple, en rupture de stock).
Bêta: le modèle obstacle est un cas particulier du modèle en deux parties décrit au chapitre 16 de Frees (2011). Nous verrons ici que pour les modèles en deux parties, la quantité de soins de santé utilisée peut être une variable continue et une variable de comptage. Donc, ce qui a été appelé de manière quelque peu déroutante "distribution bêta à zéro" dans la littérature appartient en fait à la classe des distributions et modèles en deux parties (si courante en science actuarielle), ce qui est cohérent avec la définition ci-dessus d'un modèle d'obstacle . Cet excellent livre traite des modèles à gonflage nul dans la section 12.4.1 et des modèles à obstacles dans la section 12.4.2, avec des formules et des exemples tirés d'applications actuarielles.
Historique: les modèles de Poisson à inflation zéro (ZIP) sans covariables ont une longue histoire (voir par exemple Johnson et Kotz, 1969). La forme générale des modèles de régression ZIP intégrant des covariables est due à Lambert (1992). Les modèles Hurdle ont été proposés pour la première fois par un statisticien canadien Cragg (1971), puis développés par Mullahy (1986). Vous pouvez également envisager Croston (1972), où des comptes géométriques positifs sont utilisés conjointement avec le processus de Bernoulli pour décrire un processus à valeur entière, dominé par des zéros.
R: Enfin, si vous utilisez R, il existe un paquet pscl pour "Classes et méthodes pour R développé dans le laboratoire de science politique" de Simon Jackman, contenant les fonctions hurdle () et zeroinfl () de Achim Zeileis.
Les références suivantes ont été consultées pour produire ce qui précède:
- Gurmu, S. & Trivedi, PK Excès de zéros dans les modèles de comptage pour les voyages de loisirs Journal of Business & Economic Statistics, 1996, 14, 469-477
- Johnson, N., Kotz, S., Distributions in Statistics: Distributions discrètes. 1969, Houghton MiZin, Boston
- Lambert, D., Régression de Poisson à gonflage nul avec une application aux défauts de fabrication. Technometrics, 1992, 34 (1), 1–14.
- Cragg, JG Quelques modèles statistiques pour des variables dépendantes limitées avec application à la demande de biens durables Econometrica, 1971, 39, 829-844
- Mullahy, J. Spécifications et essais de certains modèles de données de comptage modifiés Journal of Econometrics, 1986, 33, 341-365
- Frees, Modélisation de régression EW avec applications actuarielles et financières Cambridge University Press, 2011
- Dalrymple, ML; Hudson, IL & Ford, RPK, modèles finis de mélange et de poisson et de haies à gonflement nul avec application au SMSN Statistiques de calcul et d'analyse de données, 2003, 41, 491-504
- Croston, JD Prévisions et contrôle des stocks pour les demandes intermittentes Operational Research Quarterly, 1972, 23, 289-303
Les modèles d'obstacles supposent qu'il n'existe qu'un processus permettant de produire un zéro, alors que les modèles à taux de départ zéro supposent deux processus différents pouvant produire un zéro.
Les modèles d'obstacles supposent deux types de sujets: (1) ceux qui n'éprouvent jamais le résultat et (2) ceux qui le subissent toujours au moins une fois. Les modèles zéro-gonflés conceptualisent les sujets comme (1) ceux qui ne ressentent jamais le résultat et (2) ceux qui peuvent le ressentir mais qui ne le font pas toujours.
En termes simples: les modèles à gonflement nul et à haies sont décrits en deux parties.
Le premier est la partie on-off, qui est un processus binaire. Le système est "désactivé" avec la probabilité et "activé" avec la probabilité . (Ici, est connu sous le nom de probabilité d'inflation.) Lorsque le système est "désactivé", seuls des décomptes à zéro sont possibles. Cette partie est la même pour les modèles à gonflement nul et à haies.π 1−π π
La deuxième partie est la partie de comptage, qui se produit lorsque le système est "allumé". C’est là que les modèles à gonflage nul et à obstacle sont différents. Dans les modèles gonflés à zéro, les comptes peuvent toujours être nuls. Dans les modèles d'obstacles, ils doivent être non nuls. Pour cette partie, les modèles à gonflement nul utilisent une distribution de probabilité discrète "habituelle", tandis que les modèles avec obstacles utilisent une fonction de distribution de probabilité discrète tronquée par zéro.
Exemple de modèle d'obstacle: un constructeur automobile souhaite comparer deux programmes de contrôle de la qualité pour ses automobiles. Il les comparera sur la base du nombre de demandes de garantie déposées. Pour chaque programme, un ensemble de clients sélectionnés au hasard est suivi pendant un an et le nombre de demandes de garantie qu'ils déposent est compté. Les probabilités d'inflation pour chacun des deux programmes sont ensuite comparées. L'état «désactivé» est «zéro réclamation déposée», tandis que «activé» est «déposé au moins une revendication».
Exemple de modèle «gonflé à zéro»: dans la même étude ci-dessus, les chercheurs ont découvert que certaines réparations des voitures avaient été réparées sans dépôt d'une demande de garantie. De cette manière, les zéros combinent l’absence de problèmes de contrôle de la qualité et la présence de problèmes de contrôle de la qualité qui n’entraînent aucune réclamation au titre de la garantie. L'état «désactivé» signifie «aucune demande déposée» alors que «activé» signifie «déposé au moins une revendication OU fait réparer ses réparations sans déposer de demande».
Voir ici pour une étude dans laquelle les deux types de modèles ont été appliqués au même ensemble de données.
la source
dans le modèle ZIP ~ 0 avec probabilité et ~ Distribution de Poisson ( ) avec probabilité , le modèle ZIP est donc un modèle de mélange à 2 composantes et:yi π yi λ 1−π
et dans un modèle d'obstacle ~ 0 avec probabilité et ~ distribution de Poisson tronquée ( ) avec probabilité , et:yi π yi λ 1−π
la source
En ce qui concerne les modèles d'obstacles, voici une citation de Avances en modélisation mathématique et statistique (Arnold, Balakrishnan, Sarabia et Mínguez, 2008):
En ce qui concerne les modèles à gonflage nul, Wikipedia dit :
D'après Arnold et ses collègues (2008), je vois qu'un modèle d'obstacle-à-zéro est un cas particulier de la classe plus générale des modèles d'obstacles, mais d'après une référence sur Wikipedia ( Hall, 2004 ), je vois aussi les modèles gonflés peuvent être délimités par la limite supérieure. Je ne comprends pas très bien la différence entre les formules, mais elles semblent être assez similaires (les deux utilisent même un exemple très similaire, les réclamations d’assurance). J'espère que d'autres réponses pourront aider à expliquer toute différence importante, et que cette réponse aidera à préparer le terrain pour celles-ci.
Référence de Wikipedia:
la source