On m'a donné un tableau de et , qui sont tels que le nombre de indique un nombre d'enfants que tous les ont.
On me demande d'adapter une distribution de Poisson à cela.
Qu'est-ce que cela signifie d'adapter une distribution de Poisson à cela?
Ici, p.8:
http://www.stats.ox.ac.uk/~marchini/teaching/L5/L5.notes.pdf
on dit que l'ajustement de Poisson implique le calcul de pour chaque . Mais où vont les ? Est-il approprié de calculer les s?
Réponses:
En «ajustant la distribution aux données», nous voulons dire qu'une certaine distribution (c'est-à-dire une fonction mathématique) est utilisée comme modèle , qui peut être utilisée pour approximer la distribution empirique des données dont vous disposez. Si vous ajustez la distribution aux données, vous devez déduire les paramètres de distribution à partir des données. Vous pouvez le faire en utilisant un logiciel qui le fera automatiquement pour vous (par exemple
fitdistrplus
dans R), ou en le calculant à la main à partir de vos données, par exemple en utilisant le maximum de vraisemblance (voir l'entrée pertinente dans Wikipedia sur la distribution de Poisson ).Sur le graphique ci-dessous, vous pouvez voir vos données tracées avec une distribution de Poisson ajustée. Comme vous pouvez le voir, la ligne ne correspond pas parfaitement, car il ne s'agit que d'une approximation.
Entre autres méthodes, l'une des approches de ce problème consiste à utiliser le maximum de vraisemblance . Rappelons que la vraisemblance est fonction des paramètres des données fixes et en maximisant cette fonction, nous pouvons trouver les paramètres "les plus probables" compte tenu des données dont nous disposons, c'est-à-dire
où dans votre cas est la fonction de masse de probabilité de Poisson. La manière directe et numérique de trouver un approprié serait d'utiliser un algorithme d'optimisation. Pour cela, vous définissez d'abord la fonction de vraisemblance, puis vous demandez à l'algorithme de trouver le point où la fonction atteint son maximum:f λ
Vous pouvez remarquer quelque chose d'étrange à propos de ce code: je multipliexi yi xi yi f(xi|λ) f(xi|λ) xi yi yi -ième puissance de celui-ci: . Ici, nous maximisons la log-vraisemblance (voir ici pourquoi nous prenons log ), donc devient: . C'est ainsi que nous avons obtenu la fonction de vraisemblance pour les données tabulaires.f(xi|λ)yi ∏if(xi|λ)yi ∑ilogf(xi|λ)×yi
dpois()
pary
. Les données dont vous disposez sont fournies sous forme de tableau, où pour chaque valeur de nous avons les comptes accompagnement , tandis que la fonction de vraisemblance est définie en termes de données brutes, plutôt que de tels tableaux. Vous pouvez recréer les données brutes à partir de ces valeurs en répétant chacun des exactement fois (c'est- à- dire en R) et en les utilisant comme entrées dans votre logiciel statistique, mais vous pouvez adopter une approche plus intelligente. La vraisemblance est un produit de . Multiplier pour des identiques exactement fois à prendrerep(x, y)
Cependant, il existe un moyen plus simple de procéder. Nous savons que la moyenne empirique de est l'estimateur du maximum de vraisemblance de (c'est-à-dire qu'il nous permet d'estimer une telle valeur de qui maximise la vraisemblance), donc plutôt que d'utiliser un logiciel d'optimisation, nous pouvons simplement calculer la moyenne. Puisque vous avez des données sous forme de tableau avec des nombres, la façon la plus directe de procéder serait simplement d'utiliser la moyenne pondérée des où les sont utilisés comme poids.x λ λ xi yi
Cela conduit à des résultats identiques comme si vous aviez calculé la moyenne arithmétique à partir des données brutes. Les deux maximisent la probabilité à l'aide d'un algorithme d'optimisation et prennent la moyenne pour obtenir presque exactement les mêmes résultats:
Donc, les ne sont mentionnés nulle part dans vos notes car ils sont créés artificiellement comme un moyen de stocker ces données sous forme agrégée (sous forme de tableau), plutôt que de répertorier tous les bruts . Comme indiqué ci-dessus, vous pouvez profiter des données dans ce format.y 4075 x
Les procédures ci-dessus vous permettent de trouver le "meilleur ajustement" et c'est ainsi que vous ajustez la distribution aux données - en trouvant de tels paramètres de la distribution, qui la rend adaptée aux données empiriques.λ
Vous avez indiqué qu'il n'est toujours pas clair pour vous pourquoi les sont considérés comme des poids. La moyenne arithmétique peut être considérée comme un cas particulier de moyenne pondérée où tous les poids sont identiques et égaux à :yi 1/N
Pensez maintenant à la façon dont vos données sont stockées. et signifie que vous avez quatre cinq , et signifie etc. Lorsque vous calculez la moyenne , vous devez d'abord les additionner, donc: . Cela conduit à utiliser les décomptes comme poids pour la moyenne pondérée donnant exactement la même chose que la moyenne arithmétique avec les données brutesx6=5 y6=4 x6={5,5,5,5} x7=6 y7=2 x7={6,6} 5+5+5+5=5×4=x6×y6
où . La même idée a été appliquée à la fonction de vraisemblance pondérée par le nombre. Ce qui pourrait être trompeur ici, c'est que dans certains cas, nous utilisons pour désigner la ème valeur observée de , tandis que dans votre cas, est une valeur spécifique de qui a été observée fois. Comme il a été dit précédemment, ce n'est qu'une autre façon de stocker les mêmes données.N=∑iyi xi i X xi X yi
la source
Je suppose que la réponse est de trouver la moyenne des données, qui sera la lambda du processus de Poisson. Étant donné que les données sont présentées dans le tableau des fréquences, trouvez la valeur attendue / moyenne pondérée, qui, comme expliqué ci-dessus, est la même que la moyenne arithmétique des données brutes.
la source