Régression de Poisson gonflée zéro

14

Supposons que sont indépendants etY=(Y1,,Yn)

Yi=0with probability pi+(1pi)eλiYi=kwith probability (1pi)eλiλik/k!

Supposons également que les paramètres λ=(λ1,,λn) et p=(p1,,pn) satisfassent

log(λ)=Bβlogit(p)=log(p/(1p))=Gλ.

Si les mêmes covariables affectent et p de sorte que B = G , alors pourquoi la régression de Poisson gonflée par zéro nécessite-t-elle deux fois plus de paramètres que la régression de Poisson?λpB=G

Damien
la source
2
Il faut encore estimer et λ . B et G sont des matrices de conception (données), donc celles qui sont égales ne réduisent pas la dimension de l'espace des paramètres. βλBg
Macro
@Macro: Si est une colonne d' unités , alors pourquoi aurions-nous besoin d'un paramètre de plus pour estimer que la régression de poisson? g
Damien
eh bien il faudrait estimer (l '"interception" dans la partie logistique du modèle) et λ i (l' "interception" dans la partie poisson du modèle) donc il y a 2 paramètres au lieu de 1.pjeλje
Macro
1
@Robby, pour réduire le nombre de paramètres, vous devrez faire quelques contraintes. Par exemple, , bien qu'il n'y ait aucune raison de penser que cela a du sens - d'autant plus que les fonctions de liaison sont différentes. λ=β
Macro
3
@MichaelChernick - cela s'appelle Poisson gonflé à zéro parce que vous "gonflez" essentiellement la probabilité de voir un zéro à partir d'un poisson dist'n tout en conservant les mêmes probabilités relatives de voir une valeur non nulle que le Poisson.
jbowman

Réponses:

2

Dans le cas de Poisson-gonflé à zéro, si , alors β et λ ont tous deux la même longueur, qui est le nombre de colonnes de B ou G . Ainsi, le nombre de paramètres est le double du nombre de colonnes de la matrice de conception, c'est-à-dire le double du nombre de variables explicatives, y compris l'ordonnée à l'origine (et quel que soit le codage factice nécessaire).B=gβλBg

Dans une régression de Poisson droite, il n'y a pas de vecteur à se soucier, pas besoin d'estimer λ . Ainsi, le nombre de paramètres est juste la longueur de β, c'est-à-dire la moitié du nombre de paramètres dans le cas de gonflement nul.pλβ

Maintenant, il n'y a pas de raison particulière pour que soit égal à G , mais généralement cela a du sens. Cependant, on pourrait imaginer un processus de génération de données où la chance d'avoir des événements du tout est créée par un processus G λ et un processus complètement différent B β détermine le nombre d'événements, compte tenu des événements non nuls. À titre d'exemple artificiel, je choisis des salles de classe en fonction de leurs résultats aux examens d'histoire pour jouer à un jeu sans rapport, puis j'observe le nombre de buts qu'ils marquent. Dans ce cas, B peut être très différent de G (si les choses qui conduisent aux résultats de l'examen de l'historique sont différentes de celles qui conduisent aux performances dans le jeu) et β et λBggλBβBgβλpourrait avoir des longueurs différentes. peut avoir plus de colonnes que B ou moins. Ainsi, le modèle de Poisson gonflé à zéro dans ce cas aura plus de paramètres qu'un simple modèle de Poisson.gB

Dans la pratique courante, je pense que plupart du temps.g=B

Peter Ellis
la source