Régression de Poisson avec de grandes données: est-ce mal de changer l'unité de mesure?

17

En raison de la factorielle dans une distribution de poisson, il devient peu pratique d'estimer les modèles de poisson (par exemple, en utilisant le maximum de vraisemblance) lorsque les observations sont grandes. Ainsi, par exemple, si j'essaie d'estimer un modèle pour expliquer le nombre de suicides dans une année donnée (seules les données annuelles sont disponibles), et dire, il y a des milliers de suicides chaque année, est-ce mal d'exprimer des suicides par centaines , de sorte que 2998 serait 29,98 ~ = 30? En d'autres termes, est-ce mal de changer l'unité de mesure pour rendre les données gérables?

Vivi
la source

Réponses:

15

Lorsque vous traitez une distribution de Poisson avec de grandes valeurs de \ lambda (son paramètre), il est courant d'utiliser une approximation normale de la distribution de Poisson.

Comme le mentionne ce site , il est correct d'utiliser l'approximation normale lorsque \ lambda dépasse 20, et l'approximation s'améliore à mesure que \ lambda devient encore plus élevé.

La distribution de Poisson est définie uniquement sur l'espace d'état composé des entiers non négatifs, donc le redimensionnement et l'arrondi vont introduire des choses étranges dans vos données.

En utilisant la normale env. pour les grandes statistiques de Poisson est TRÈS commun.

Baltimark
la source
6

Dans le cas de Poisson, c'est mauvais, car les comptes sont des comptes - leur unité est une unité. D'un autre côté, si vous utilisiez un logiciel avancé comme R, ses fonctions de gestion de Poisson seront au courant de ces grands nombres et utiliseraient des astuces numériques pour les gérer.

Évidemment, je suis d'accord que l'approximation normale est une autre bonne approche.


la source
3

La plupart des progiciels statistiques ont une fonction pour calculer directement le logarithme naturel de la factorielle (par exemple la fonction lfactorial () dans R, la fonction lfactorial () dans Stata). Cela vous permet d'inclure le terme constant dans le log-vraisemblance si vous le souhaitez.

un arrêt
la source
De plus, n!= Gamma(n+1)pour n> = 0. Essayez donc de rechercher une fonction appelée Gammasi vous avez besoin de calculer la factorielle (ou connectez Gamma si vous calculez la probabilité de log)
Andre Holzner
3

J'ai bien peur que tu ne puisses pas faire ça. Comme le dit @Baltimark, avec un gros lambda, la distribution sera de forme plus normale (symétrique), et avec une réduction, elle ne sera plus une distrubution de poisson. Essayez le code suivant dans R:

poi1 = rpois(100000, lambda = 5)  # poisson
poi2 = rpois(100000, lambda = 100)/20 # scaled-down poisson
poi2_dens = density(poi2)

hist(poi1, breaks = 0:30, freq = F, ylim = range(poi2_dens$y))
lines(poi2_dens, col = "red")

Le résultat est ci-dessous:

entrez la description de l'image ici

Vous pouvez voir que le poisson à échelle réduite (ligne rouge) est complètement différent de la distribution de poisson.

Curieuse
la source
1

Vous pouvez simplement ignorer la «factorielle» lorsque vous utilisez le maximum de vraisemblance. Voici le raisonnement de votre exemple de suicides. Laisser:

λ: Soyez le nombre attendu de suicides par an

k i : Soyez le nombre de suicides dans l'année i.

Ensuite, vous maximiseriez la probabilité de journalisation comme suit:

LL = ∑ (k i log (λ) - λ - k i !)

Maximiser ce qui précède équivaut à maximiser ce qui suit comme k i ! est une constante:

LL ' = ∑ (k i log (λ) - λ)

Pourrait expliquer pourquoi le factoriel est un problème? Suis-je en train de manquer quelque chose?


la source
Vous ne manquez pas quelque chose si tout ce que vous essayez de faire est d'estimer le paramètre à partir d'un ensemble d'observations. C'était certainement l'idée principale de la question du PO. Cependant, elle demandait également de manière générale (sinon rigoureuse) "comment estimer les modèles de poisson". Peut-être qu'elle veut connaître la valeur du pdf à un moment précis. Dans ce cas, la normale env. va probablement être meilleure que la mise à l'échelle du paramètre, et les observations par 100, ou autre, si les observations sont suffisamment grandes pour rendre le calcul de la factorielle impraticable.
Baltimark
1
@Srikant, vous avez raison, pour estimer les paramètres, la factorielle n'est pas un problème, mais en général, vous voudrez la valeur de la vraisemblance pour un modèle donné, et vous devrez utiliser la factorielle pour cela. De plus, pour le test d'hypothèse (par exemple test de rapport de vraisemblance), vous aurez besoin de la valeur de la vraisemblance.
Vivi
@Baltimark: oui, je veux savoir en général, s'il est valable de changer l'unité de mesure de Poisson. On m'a posé cette question et je ne savais pas quoi dire.
Vivi
@Vivi: Je ne sais pas pourquoi vous voudriez calculer la probabilité avec k_i! incluse comme dans la plupart des applications (par exemple, test de rapport de vraisemblance, estimation bayésienne), la constante n'aura pas d'importance. En tout cas, je ne pense pas que vous puissiez redimensionner comme vous l'avez suggéré. Si je sens le contraire, je mettrai à jour ma réponse.
@Srikant, je vois votre point, mais certains logiciels (Eviews, par exemple) incluent cela par défaut, et les grands nombres sont un problème que vous le vouliez ou non. Je suppose que je cherchais vraiment à expliquer pourquoi vous pouvez ou ne pouvez pas le faire plutôt qu'un moyen de contourner le problème, mais la discussion a néanmoins été intéressante et instructive :)
Vivi