Comment ajustez-vous une distribution de Poisson aux données de table?

En «ajustant la distribution aux données», nous voulons dire qu'une certaine distribution (c'est-à-dire une fonction mathématique) est utilisée comme modèle , qui peut être utilisée pour approximer la distribution empirique des données dont vous disposez. Si vous ajustez la distribution aux données, vous devez déduire les paramètres de distribution à partir des données. Vous pouvez le faire en utilisant un logiciel qui le fera automatiquement pour vous (par exemple fitdistrplusdans R), ou en le calculant à la main à partir de vos données, par exemple en utilisant le maximum de vraisemblance (voir l'entrée pertinente dans Wikipedia sur la distribution de Poisson ).

Sur le graphique ci-dessous, vous pouvez voir vos données tracées avec une distribution de Poisson ajustée. Comme vous pouvez le voir, la ligne ne correspond pas parfaitement, car il ne s'agit que d'une approximation.

Entre autres méthodes, l'une des approches de ce problème consiste à utiliser le maximum de vraisemblance . Rappelons que la vraisemblance est fonction des paramètres des données fixes et en maximisant cette fonction, nous pouvons trouver les paramètres "les plus probables" compte tenu des données dont nous disposons, c'est-à-dire

L (λ | x_{1}, \dots, x_{n}) = \prod_{i} f (x_{i} | λ)

$L(\lambda|x_1,\dots,x_n) = \prod_i f(x_i|\lambda)$

où dans votre cas est la fonction de masse de probabilité de Poisson. La manière directe et numérique de trouver un approprié serait d'utiliser un algorithme d'optimisation. Pour cela, vous définissez d'abord la fonction de vraisemblance, puis vous demandez à l'algorithme de trouver le point où la fonction atteint son maximum: $f$ $\lambda$

# negative log-likelihood (since this algorithm looks for minimum)
llik <- function(lambda) -sum(dpois(x, lambda, log = TRUE)*y)
opt.fit <- optimize(llik, c(0, 10))$minimum

Vous pouvez remarquer quelque chose d'étrange à propos de ce code: je multiplie dpois()par y. Les données dont vous disposez sont fournies sous forme de tableau, où pour chaque valeur de nous avons les comptes accompagnement , tandis que la fonction de vraisemblance est définie en termes de données brutes, plutôt que de tels tableaux. Vous pouvez recréer les données brutes à partir de ces valeurs en répétant chacun des exactement fois (c'est- à- dire en R) et en les utilisant comme entrées dans votre logiciel statistique, mais vous pouvez adopter une approche plus intelligente. La vraisemblance est un produit de . Multiplier pour des identiques exactement fois à prendre $x_i$ $y_i$ $x_i$ $y_i$ rep(x, y) $f(x_i|\lambda)$ $f(x_i|\lambda)$ $x_i$ $y_i$ $y_i$ -ième puissance de celui-ci: . Ici, nous maximisons la log-vraisemblance (voir ici pourquoi nous prenons log ), donc devient: . C'est ainsi que nous avons obtenu la fonction de vraisemblance pour les données tabulaires. $f(x_i|\lambda)^{y_i}$ $\prod_i f(x_i|\lambda)^{y_i}$ $\sum_i \log f(x_i|\lambda) \times y_i$

Cependant, il existe un moyen plus simple de procéder. Nous savons que la moyenne empirique de est l'estimateur du maximum de vraisemblance de (c'est-à-dire qu'il nous permet d'estimer une telle valeur de qui maximise la vraisemblance), donc plutôt que d'utiliser un logiciel d'optimisation, nous pouvons simplement calculer la moyenne. Puisque vous avez des données sous forme de tableau avec des nombres, la façon la plus directe de procéder serait simplement d'utiliser la moyenne pondérée des où les sont utilisés comme poids. $x$ $\lambda$ $\lambda$ $x_i$ $y_i$

mx <- sum(x*(y/sum(y)))

Cela conduit à des résultats identiques comme si vous aviez calculé la moyenne arithmétique à partir des données brutes. Les deux maximisent la probabilité à l'aide d'un algorithme d'optimisation et prennent la moyenne pour obtenir presque exactement les mêmes résultats:

> mx
[1] 0.3995092
> opt.fit
[1] 0.3995127

Donc, les ne sont mentionnés nulle part dans vos notes car ils sont créés artificiellement comme un moyen de stocker ces données sous forme agrégée (sous forme de tableau), plutôt que de répertorier tous les bruts . Comme indiqué ci-dessus, vous pouvez profiter des données dans ce format. $y$ $4075$ $x$

Les procédures ci-dessus vous permettent de trouver le "meilleur ajustement" et c'est ainsi que vous ajustez la distribution aux données - en trouvant de tels paramètres de la distribution, qui la rend adaptée aux données empiriques. $\lambda$

Vous avez indiqué qu'il n'est toujours pas clair pour vous pourquoi les sont considérés comme des poids. La moyenne arithmétique peut être considérée comme un cas particulier de moyenne pondérée où tous les poids sont identiques et égaux à : $y_i$ $1/N$

\frac{x_{1} + \dots + x_{n}}{N} = \frac{1}{N} (x_{1} + \dots + x_{n}) = \frac{1}{N} x_{1} + \dots + \frac{1}{N} x_{n}

$\frac{x_1 + \dots + x_n}{N} = \frac{1}{N} \left( x_1 + \dots + x_n \right) = \frac{1}{N}x_1 + \dots + \frac{1}{N}x_n$

Pensez maintenant à la façon dont vos données sont stockées. et signifie que vous avez quatre cinq , et signifie etc. Lorsque vous calculez la moyenne , vous devez d'abord les additionner, donc: . Cela conduit à utiliser les décomptes comme poids pour la moyenne pondérée donnant exactement la même chose que la moyenne arithmétique avec les données brutes $x_6 = 5$ $y_6 = 4$ $x_6 = \{5,5,5,5\}$ $x_7 = 6$ $y_7 = 2$ $x_7 = \{6,6\}$ $5+5+5+5 = 5 \times 4 = x_6 \times y_6$

\frac{x_{1} y_{1} + \dots + x_{n} y_{n}}{y_{1} + \dots + y_{n}} = \frac{x_{1} y_{1}}{N} + \dots + \frac{x_{n} y_{n}}{N} = \overset{y_{1} times}{\overset{⏞}{\frac{x_{1}}{N} + \dots + \frac{x_{1}}{N}}} + \dots + \overset{y_{n} times}{\overset{⏞}{\frac{x_{n}}{N} + \dots + \frac{x_{n}}{N}}}

$\frac{x_1 y_1 + \dots + x_n y_n}{y_1 + \dots + y_n} = \\ \frac{x_1 y_1}{N} + \dots + \frac{x_n y_n}{N} = \\ \overbrace{ \frac{x_1}{N} + \dots + \frac{x_1}{N} }^{y_1 ~ \text{times}} + \dots + \overbrace{ \frac{x_n}{N} + \dots + \frac{x_n}{N} }^{y_n ~ \text{times}}$

où . La même idée a été appliquée à la fonction de vraisemblance pondérée par le nombre. Ce qui pourrait être trompeur ici, c'est que dans certains cas, nous utilisons pour désigner la ème valeur observée de , tandis que dans votre cas, est une valeur spécifique de qui a été observée fois. Comme il a été dit précédemment, ce n'est qu'une autre façon de stocker les mêmes données. $N = \sum_i y_i$ $x_i$ $i$ $X$ $x_i$ $X$ $y_i$

Tim
la source

Mais comment calcule-t-on cela? Je ne comprends pas le lien entre Poisson, x et y. Je suppose que est ce que l'on branche dans le Poisson pmf comme , mais comment le Poisson pmf est-il lié aux s?

x

$x$

k

$k$

y

$y$

mavavilj

Donc, ajuster un modèle signifie-t-il calculer le (empirique pour chaque ?

P (X = x_{i})

$P(X=x_i)$

x_{i}

$x_i$

mavavilj

@mavavilj non, cela signifie trouver une telle valeur de paramètres de distribution (dans ce cas de ) qui rend la fonction de distribution la mieux adaptée à la distribution empirique (voir le premier paragraphe). Le dernier paragraphe concerne la façon dont vos données sont stockées. Si quelque chose n'est toujours pas clair, veuillez commenter.

λ

$\lambda$

Tim

Quelle est la raison de déduire s comme pondérations pour la moyenne pondérée (pour obtenir le MLE)?

y

$y$

mavavilj

Je ne suis toujours pas clair sur le raisonnement qui conduit au calcul de la moyenne pondérée. Pourquoi les sont-ils considérés comme des poids?

y

$y$

mavavilj

Comment ajustez-vous une distribution de Poisson aux données de table?

Réponses: