Quelle est la différence entre les modèles zéro-gonflés et les haies?

81

Je me demande s’il existe une différence nette entre les distributions (modèles) à gonflement nul et les distributions (modèles) à seuil de passage à zéro? Les termes apparaissent assez souvent dans la littérature et je suppose qu'ils ne sont pas les mêmes, mais pourriez-vous m'expliquer la différence en termes simples?

zero-inflation skulker
la source

80

Merci pour la question intéressante!

Différence: Une des limites des modèles de comptage standard est que les zéros et les non-zéros (positifs) sont supposés provenir du même processus de génération de données. Avec les modèles d'obstacles , ces deux processus ne sont pas obligés d'être identiques. L'idée de base est qu'une probabilité de Bernoulli gouverne le résultat binaire de savoir si une variable de comptage a une réalisation nulle ou positive. Si la réalisation est positive, l'obstacle est franchi et la distribution conditionnelle des positifs est régie par un modèle de données à compte tronqué à zéro. Avec des modèles gonflés à zéro, la variable de réponse est modélisée comme un mélange d’une distribution de Bernoulli (ou appelez-la une masse ponctuelle à zéro) et d’une distribution de Poisson (ou de toute autre distribution de comptage prise en charge sur des entiers non négatifs). Pour plus de détails et de formules, voir, par exemple, Gurmu et Trivedi (2011) et Dalrymple, Hudson et Ford (2003).

Exemple: les modèles d'obstacles peuvent être motivés par des processus de prise de décision séquentiels auxquels les individus sont confrontés. Vous décidez d’abord si vous devez acheter quelque chose, puis vous décidez de la quantité de ce quelque chose (qui doit être positif). Lorsque vous êtes autorisé à acheter (ou que vous pouvez potentiellement) ne rien acheter après votre décision d'acheter quelque chose, c'est un exemple de situation dans laquelle un modèle à gonflement nul est approprié. Les zéros peuvent provenir de deux sources: a) aucune décision d'achat; b) voulait acheter mais n'a finalement rien acheté (par exemple, en rupture de stock).

Bêta: le modèle obstacle est un cas particulier du modèle en deux parties décrit au chapitre 16 de Frees (2011). Nous verrons ici que pour les modèles en deux parties, la quantité de soins de santé utilisée peut être une variable continue et une variable de comptage. Donc, ce qui a été appelé de manière quelque peu déroutante "distribution bêta à zéro" dans la littérature appartient en fait à la classe des distributions et modèles en deux parties (si courante en science actuarielle), ce qui est cohérent avec la définition ci-dessus d'un modèle d'obstacle . Cet excellent livre traite des modèles à gonflage nul dans la section 12.4.1 et des modèles à obstacles dans la section 12.4.2, avec des formules et des exemples tirés d'applications actuarielles.

Historique: les modèles de Poisson à inflation zéro (ZIP) sans covariables ont une longue histoire (voir par exemple Johnson et Kotz, 1969). La forme générale des modèles de régression ZIP intégrant des covariables est due à Lambert (1992). Les modèles Hurdle ont été proposés pour la première fois par un statisticien canadien Cragg (1971), puis développés par Mullahy (1986). Vous pouvez également envisager Croston (1972), où des comptes géométriques positifs sont utilisés conjointement avec le processus de Bernoulli pour décrire un processus à valeur entière, dominé par des zéros.

R: Enfin, si vous utilisez R, il existe un paquet pscl pour "Classes et méthodes pour R développé dans le laboratoire de science politique" de Simon Jackman, contenant les fonctions hurdle () et zeroinfl () de Achim Zeileis.

Les références suivantes ont été consultées pour produire ce qui précède:

Gurmu, S. & Trivedi, PK Excès de zéros dans les modèles de comptage pour les voyages de loisirs Journal of Business & Economic Statistics, 1996, 14, 469-477
Johnson, N., Kotz, S., Distributions in Statistics: Distributions discrètes. 1969, Houghton MiZin, Boston
Lambert, D., Régression de Poisson à gonflage nul avec une application aux défauts de fabrication. Technometrics, 1992, 34 (1), 1–14.
Cragg, JG Quelques modèles statistiques pour des variables dépendantes limitées avec application à la demande de biens durables Econometrica, 1971, 39, 829-844
Mullahy, J. Spécifications et essais de certains modèles de données de comptage modifiés Journal of Econometrics, 1986, 33, 341-365
Frees, Modélisation de régression EW avec applications actuarielles et financières Cambridge University Press, 2011
Dalrymple, ML; Hudson, IL & Ford, RPK, modèles finis de mélange et de poisson et de haies à gonflement nul avec application au SMSN Statistiques de calcul et d'analyse de données, 2003, 41, 491-504
Croston, JD Prévisions et contrôle des stocks pour les demandes intermittentes Operational Research Quarterly, 1972, 23, 289-303

En hibernation
la source

2

Un modèle d'obstacle est-il vraiment un "modèle" lui-même, alors? Ou utilise-t-il deux modèles séquentiels et estimés séparément? Imaginez modéliser la compétitivité des courses électorales en regardant les scores de compétitivité (1 - marge de victoire). Ceci est borné [0, 1), car il n'y a pas de lien (par exemple, 1). Nous faisons donc d’abord une régression logistique pour analyser 0 contre (0, 1). Nous effectuons ensuite une régression bêta pour analyser les cas (0, 1). Il semble que ce soient deux modèles complètement différents, avec leurs propres coefficients et une estimation séparée? Ou est-ce que je manque quelque chose?

Mark White

Par exemple, vous mentionnez dans votre réponse que des zéros pourraient être dus à (a) la décision de ne pas acheter une voiture, ou (b) le désir de le faire, mais c'était en rupture de stock. Il semble qu'un modèle d'obstacle ne serait pas en mesure de différencier les deux, car ils sont effectués de manière séquentielle ...?

Mark White

Prenons un autre exemple: les réponses sont [1, 7], comme une échelle de Likert traditionnelle, avec un énorme effet de plafond à 7. On pourrait faire un modèle d'obstacle consistant en une régression logistique de [1, 7) contre 7, puis en une régression de Tobit. pour tous les cas où les réponses observées sont <7. Encore une fois, nous obtenons deux ensembles de coefficients de régression, et ils sont estimés séparément. Il semble que nous ne modélisons pas ces processus conjointement, mais dans deux modèles totalement différents? Ainsi, l’obstacle est-il réellement un modèle, ou est-il simplement le processus consistant à faire deux types différents de modèles linéaires généralisés à la suite?

Mark White

J'ai prolongé cette question dans mon propre post ici: stats.stackexchange.com/questions/320924/…

Mark White

47

Les modèles d'obstacles supposent qu'il n'existe qu'un processus permettant de produire un zéro, alors que les modèles à taux de départ zéro supposent deux processus différents pouvant produire un zéro.

Les modèles d'obstacles supposent deux types de sujets: (1) ceux qui n'éprouvent jamais le résultat et (2) ceux qui le subissent toujours au moins une fois. Les modèles zéro-gonflés conceptualisent les sujets comme (1) ceux qui ne ressentent jamais le résultat et (2) ceux qui peuvent le ressentir mais qui ne le font pas toujours.

En termes simples: les modèles à gonflement nul et à haies sont décrits en deux parties.

Le premier est la partie on-off, qui est un processus binaire. Le système est "désactivé" avec la probabilité et "activé" avec la probabilité . (Ici, est connu sous le nom de probabilité d'inflation.) Lorsque le système est "désactivé", seuls des décomptes à zéro sont possibles. Cette partie est la même pour les modèles à gonflement nul et à haies. $\pi$ $1-\pi$ $\pi$

La deuxième partie est la partie de comptage, qui se produit lorsque le système est "allumé". C’est là que les modèles à gonflage nul et à obstacle sont différents. Dans les modèles gonflés à zéro, les comptes peuvent toujours être nuls. Dans les modèles d'obstacles, ils doivent être non nuls. Pour cette partie, les modèles à gonflement nul utilisent une distribution de probabilité discrète "habituelle", tandis que les modèles avec obstacles utilisent une fonction de distribution de probabilité discrète tronquée par zéro.

Exemple de modèle d'obstacle: un constructeur automobile souhaite comparer deux programmes de contrôle de la qualité pour ses automobiles. Il les comparera sur la base du nombre de demandes de garantie déposées. Pour chaque programme, un ensemble de clients sélectionnés au hasard est suivi pendant un an et le nombre de demandes de garantie qu'ils déposent est compté. Les probabilités d'inflation pour chacun des deux programmes sont ensuite comparées. L'état «désactivé» est «zéro réclamation déposée», tandis que «activé» est «déposé au moins une revendication».

Exemple de modèle «gonflé à zéro»: dans la même étude ci-dessus, les chercheurs ont découvert que certaines réparations des voitures avaient été réparées sans dépôt d'une demande de garantie. De cette manière, les zéros combinent l’absence de problèmes de contrôle de la qualité et la présence de problèmes de contrôle de la qualité qui n’entraînent aucune réclamation au titre de la garantie. L'état «désactivé» signifie «aucune demande déposée» alors que «activé» signifie «déposé au moins une revendication OU fait réparer ses réparations sans déposer de demande».

Voir ici pour une étude dans laquelle les deux types de modèles ont été appliqués au même ensemble de données.

Darren James
la source

Merci pour la réponse détaillée. Auriez-vous une idée de la terminologie appropriée pour la distribution bêta standard avec des zéros ajoutés? En utilisant votre définition de modèles à gonflage nul, il existe clairement une source de zéros et ne peut donc pas être appelé à gonflage nul ... Voir la discussion stats.stackexchange.com/questions/81343/…

skulker

2

J'aime bien la "distribution bêta à zéro ajout" suggérée par @Hibernating

Darren James le

10

dans le modèle ZIP ~ 0 avec probabilité et ~ Distribution de Poisson ( ) avec probabilité , le modèle ZIP est donc un modèle de mélange à 2 composantes et: $y_i$ $\pi$ $y_i$ $\lambda$ $1-\pi$

Pr (y_{j} = 0) = π + (1 - π) e^{- λ}

$\Pr (y_j = 0) = \pi + (1 - \pi) e^{-\lambda}$

Pr (y_{j} = x_{i}) = (1 - π) \frac{λ^{x_{i}} e^{- λ}}{x_{i}!}, x_{i} \geq 1

$\Pr (y_j = x_i) = (1 - \pi) \frac{\lambda^{x_i} e^{-\lambda}} {x_i!},\qquad x_i \ge 1$

et dans un modèle d'obstacle ~ 0 avec probabilité et ~ distribution de Poisson tronquée ( ) avec probabilité , et: $y_i$ $\pi$ $y_i$ $\lambda$ $1-\pi$

Pr (y_{j} = 0) = π

$\Pr (y_j = 0) = \pi$

Pr (y_{j} = x_{i}) = \frac{(1 - π)}{1 - e^{- λ}} (\frac{λ^{x_{i}} e^{- λ}}{x_{i}!}), x_{i} \geq 1

$\Pr (y_j = x_i) = \frac{(1 - \pi)} {1-e^{-\lambda}} (\frac{\lambda^{x_i} e^{-\lambda}} {x_i!}),\qquad x_i \ge 1$

Marzieh
la source

4

En ce qui concerne les modèles d'obstacles, voici une citation de Avances en modélisation mathématique et statistique (Arnold, Balakrishnan, Sarabia et Mínguez, 2008):

Le modèle d'obstacle est caractérisé par le processus sous l'obstacle et celui au-dessus. De toute évidence, le modèle d'obstacle le plus largement utilisé est celui qui fixe l'obstacle à zéro. Formellement, le modèle du zéro est exprimé comme : pour pour $P(N_i=n_i)=f_1(0)$ $n_i=0$ $P(N_i=n_i)=\frac{1-f_1(0)}{1-f_2(0)}f_2(n_i)=\phi f_2(n_i)$ $n_i=1,2,...$

La variable peut être interprétée comme la probabilité de franchir l’obstacle, ou plus précisément dans le cas d’une assurance, la probabilité de déclarer au moins une réclamation. $\phi$

En ce qui concerne les modèles à gonflage nul, Wikipedia dit :

Un modèle à gonflage nul est un modèle statistique basé sur une distribution de probabilité gonflée à zéro, c'est-à-dire une distribution permettant de fréquentes observations à valeur zéro.

Le modèle de Poisson gonflé à zéro concerne un événement aléatoire contenant des données de compte zéro excédentaires en unités de temps. Par exemple, le nombre de demandes d'indemnisation présentées par une personne assurée à une compagnie d'assurance est presque toujours nul, faute de quoi des pertes importantes entraîneraient la faillite de la compagnie d'assurance. Le modèle Poisson de type zéro (ZIP) utilise deux composants correspondant à deux processus générant un zéro. Le premier processus est régi par une distribution binaire qui génère des zéros structurels. Le second processus est régi par une distribution de Poisson qui génère des comptes, dont certains peuvent être nuls. Les deux composantes du modèle sont décrites comme suit: $^{[1]}$
$Pr (y_{j} = 0) = π + (1 - π) e^{- λ}$ $\Pr (y_j = 0) = \pi + (1 - \pi) e^{-\lambda}$ $Pr (y_{j} = h_{i}) = (1 - π) \frac{λ^{h_{i}} e^{- λ}}{h_{i}!}, h_{i} \geq 1$ $\Pr (y_j = h_i) = (1 - \pi) \frac{\lambda^{h_i} e^{-\lambda}} {h_i!},\qquad h_i \ge 1$ où la variable de résultat a une valeur entière non négative, est le nombre de Poisson attendu pour le ème individu; est la probabilité de zéros supplémentaires. $y_j$ $\lambda_i$ $i$ $\pi$

D'après Arnold et ses collègues (2008), je vois qu'un modèle d'obstacle-à-zéro est un cas particulier de la classe plus générale des modèles d'obstacles, mais d'après une référence sur Wikipedia ( Hall, 2004 ), je vois aussi les modèles gonflés peuvent être délimités par la limite supérieure. Je ne comprends pas très bien la différence entre les formules, mais elles semblent être assez similaires (les deux utilisent même un exemple très similaire, les réclamations d’assurance). J'espère que d'autres réponses pourront aider à expliquer toute différence importante, et que cette réponse aidera à préparer le terrain pour celles-ci.

Référence de Wikipedia:

Lambert, D. (1992). Régression de Poisson gonflée à zéro, avec une application aux défauts de fabrication. Technometrics, 34 (1), 1–14.

Nick Stauner
la source

Quelle est la différence entre les modèles zéro-gonflés et les haies?

Réponses: