Un Poisson tronqué à zéro et un Poisson de base sont-ils imbriqués ou non?

9

J'en ai vu beaucoup qui discutent si une régression de Poisson de base est une version imbriquée d'une régression de Poisson gonflée à zéro. Par exemple, ce site soutient que c'est le cas, car ce dernier inclut des paramètres supplémentaires pour modéliser des zéros supplémentaires, mais inclut autrement les mêmes paramètres de régression de Poisson que les premiers, bien que la page comprenne une référence en désaccord.

Ce que je ne trouve pas d'informations, c'est si un Poisson tronqué à zéro et un Poisson de base sont imbriqués. Si le Poisson tronqué à zéro est juste un Poisson avec la stipulation supplémentaire que la probabilité d'un comptage nul est nulle, alors je suppose que cela pourrait être le cas, mais j'espérais une réponse plus définitive.

La raison pour laquelle je me demande est que cela affectera si je devrais utiliser le test de Vuong (pour les modèles non imbriqués), ou un test chi carré plus basique basé sur la différence de loglikelihoods (pour les modèles imbriqués).

Wilson (2015) explique si un test de Vuong est approprié pour comparer la régression gonflée à zéro avec la régression de base, mais je ne trouve pas de source qui traite des données tronquées à zéro.

Justin
la source

Réponses:

4

Venez à travers cela maintenant. Pour éviter toute confusion, je suis le Wilson de Wilson (2015) référencé dans la question d'origine, qui demande si les modèles Poisson et Poisson tronqués sont imbriqués, non imbriqués etc. Légèrement simplifiant, un modèle plus petit est imbriqué dans un modèle plus grand si le plus grand le modèle se réduit au plus petit si un sous-ensemble de ses paramètres est fixé aux valeurs indiquées; deux modèles se chevauchent s'ils se réduisent tous deux au même modèle lorsque des sous-ensembles de leurs paramètres respectifs sont fixés à certaines valeurs, ils ne sont pas imbriqués si, quelle que soit la façon dont les paramètres sont fixés, l'un ne peut pas se réduire à l'autre. Selon cette définition, le Poisson tronqué et le Poisson standard ne sont pas imbriqués. CEPENDANT, et c'est un point qui semble avoir été ignoré par beaucoup, la théorie distributionnelle de Vuong fait référence à STRICTEMENT imbriqué, STRICTEMENT non imbriqué, et se chevauchent STRICTEMENT. "STRICTEMENT" se référant à l'ajout de six restrictions à la définition de base de l'imbrication, etc. Ces restrictions ne sont pas exactement simples, mais elles signifient, entre autres, que les résultats de Vuong sur la distribution des rapports de vraisemblance de log ne sont pas applicables dans les cas où les modèles / distributions sont imbriqués à la limite d'un espace de paramètres (comme c'est le cas avec Poisson / Poisson gonflé zéro avec un lien d'identité pour le paramètre d'inflation zéro) ou lorsqu'un modèle tend vers l'autre lorsqu'un paramètre tend vers l'infini, comme C'est le cas avec le Poisson / Poisson gonflé à zéro lorsqu'un lien logit est utilisé pour modéliser le paramètre d'inflation nulle. Vuong ne présente aucune théorie sur la distribution des rapports de vraisemblance logarithmique dans ces circonstances. Malheureusement ici,

Le code R suivant simulera la distribution de poisson et les ratios de loglik vraisemblance de Poisson tronqués. Il nécessite le VGAMpackage.

n<-30   
lambda1<-1
H<-rep(999,10000)
for(i in 1:10000){
  print(i)
  y<-rpospois(n, lambda1)
  fit1 <- vglm(y ~ 1, pospoisson)
  fit2<-glm(y~1, family=poisson(link="log"))
  H[i]<-logLik(fit1)-logLik(fit2)
}

hist(H,col="lemonchiffon")
Pauljw11
la source
4

Le Poisson de base peut être considéré comme imbriqué dans une forme plus générale:

p(x)=(1p)eλλxx!+p1(x=0)

Lorsque , nous avons le Poisson de base. Lorsque , nous avons le Poisson tronqué à zéro. Lorsque , nous avons un Poisson réduit à zéro. Lorsque , nous avons un Poisson gonflé à zéro et nous avons une distribution dégénérée à .p=0p=exp{λ}/(1exp{λ})exp{λ}/(1exp{λ})<p<00<p<1p=1

Il me semble donc que la version imbriquée du test Vuong, ou le chi carré comme vous le suggérez, serait appropriée dans votre cas. Notez, cependant, que le chi carré peut avoir des problèmes en raison des faibles probabilités d' observations "grandes" (par rapport à ). Vous voudrez probablement utiliser un bootstrap pour obtenir la valeur de p pour la statistique du chi carré au lieu de compter sur les asymptotiques, sauf si vous avez plutôt beaucoup de données.λ

jbowman
la source
Merci @jbowman - c'est le genre de réponse plus rigoureuse que j'espérais. Je ne suis pas clair cependant: je pensais que tout l'intérêt d'un test Vuong était pour les modèles non imbriqués, donc même si cela va au-delà de mon message d'origine, pourriez-vous fournir un peu plus d'informations sur la "version imbriquée du test Vuong". Pour être clair sur la source de ma confusion: jusqu'à présent, je ne connaissais que la vuongfonction du package pscldans R qui dit que c'est pour les modèles non imbriqués. Je viens de googler et de trouver une fonction vuongtestdans le package nonnest2qui comprend un argument «imbriqué». Est-ce que c'est ça?
Justin
Oui, bien sûr. En fait, la page Wikipedia en.wikipedia.org/wiki/Vuong%27s_closeness_test sur le test Vuong est légèrement utile (souvent ce n'est pas tellement) pour décrire la différence.
jbowman
1
NB Le Poisson et le Poisson tronqué à zéro sont des cas particuliers de la distribution que vous avez définie. L'un n'est pas imbriqué dans l'autre. Donc, vous ne pouvez pas utiliser le théorème de Wilks pour dériver une distribution chi carré asymptotique pour le double du rapport de vraisemblance logarithmique, quelle que soit vous considérez comme l'hypothèse nulle. (Je pense qu'il y a aussi des conditions de régularité pour le test de Vuong.)
Scortchi - Réintégrer Monica
3
@Scortchi Je suis curieux de connaître la définition de "imbriqué" que vous appliquez. Bien que je ne sois pas en désaccord avec votre conclusion, j'y arrive d'un point de vue légèrement différent: oui, le Poisson est imbriqué dans cette famille (car il naît en se limitant à ) mais diverses conclusions sur les distributions asymptotiques de MLE les estimations des paramètres pour ne s'appliquent pas car cette valeur de se situe à la frontière de la famille. Suis-je en train de manquer une distinction importante? p pp=0pp
whuber
2
@whuber, j'allais commenter / fournir une réponse sur le même point. Le lien référencé note: "... bien que la distribution du chi carré puisse nécessiter un ajustement car la restriction est à la limite de l'espace des paramètres"
Ben Bolker