Le modèle de régression de Poisson gonflé à zéro est défini pour un échantillon par
et il suppose en outre que les paramètres et satisfontY i = { 0 avec probabilité p i + ( 1 - p i ) e - λ i k avec probabilité ( 1 - p i ) e - λ i λ k i / k ! λ = ( λ 1 , … , λ n ) p =( y1, … , Yn)
Ouije= { 0kavec probabilité pje+ ( 1 - pje) e- λjeavec probabilité ( 1 - p je) e- λjeλkje/ k!
λ =( λ1, … , Λn)p =( p1, … , Pn)
Journal( λ )logit ( p )= B β= journal( p / ( 1 - p ) ) = G γ.
La probabilité logarithmique correspondante du modèle de régression de Poisson gonflé à zéro est
L (γ, β; y )= ∑yje= 0Journal( egjeγ+ exp( - eBjeβ) ) + ∑yje> 0(yjeBjeβ- eBjeβ)- ∑i = 1nJournal( 1 + egjeγ) - ∑yje> 0Journal( yje! )
Ici, et sont les matrices de conception. Ces matrices pourraient être les mêmes, selon les fonctionnalités que l'on souhaite utiliser pour les deux processus de génération. Ils ont cependant le même nombre de lignes.Bg
En supposant que nous puissions observer lorsque est de l'état parfait, zéro et lorsque est de l'état de Poisson, la log-vraisemblance seraitZje= 1OuijeZje= 0Ouije
L ( γ, β; y , z ) = ∑i =1nJournal( f( zje|γ) ) +∑i = 1nJournal( f( yje| zje,β) )
= ∑i = 1nzje( Gjeγ- journal( 1 + egjeγ) ) + - ∑i = 1n( 1 - zje) journal( 1 + egjeγ) +∑i = 1n( 1 - zje) [ yjeBjeβ- eBjeβ- journal(yje! ) ]
Les deux premiers termes sont la perte dans une régression logistique pour séparer
zje= 0 de
zje= 1 . Le deuxième terme est une régression vers les points générés par le processus de Poisson.
Mais les variables latentes ne sont-elles pas observables? Le but est de maximiser la première probabilité de log. Mais nous devons introduire des variables latentes et dériver une nouvelle log-vraisemblance. Ensuite, en utilisant l'algorithme EM, nous pouvons maximiser la deuxième log-vraisemblance. Mais cela suppose que nous savons que ou ?Z i = 1Zje= 0Zje= 1
Réponses:
La racine de la difficulté que vous rencontrez réside dans la phrase:
1-zhat
Si vous voulez le faire pour des données réelles, au lieu de simplement comprendre l'algorithme, les packages R existent déjà; voici un exemple http://www.ats.ucla.edu/stat/r/dae/zipoisson.htm utilisant la
pscl
bibliothèque.EDIT: Je dois souligner que ce que nous faisons est de maximiser la valeur attendue de la probabilité du journal des données complètes, PAS de maximiser la probabilité du journal des données complètes avec les valeurs attendues des données manquantes / variables latentes branchées. la vraisemblance du journal des données complètes est linéaire dans les données manquantes, comme c'est le cas ici, les deux approches sont les mêmes, mais sinon, elles ne le sont pas.
la source