Passer de la modélisation d'un processus à l'aide d'une distribution de Poisson pour utiliser une distribution binomiale négative?

$\newcommand{\P}{\mathbb{P}}$ Nous avons un processus aléatoire qui peut ou mai ne pas se produire plusieurs fois dans une période de temps définie . Nous avons un flux de données à partir d'un modèle préexistant de ce processus, qui fournit la probabilité qu'un certain nombre d'événements se produisent dans la période . Ce modèle existant est ancien et nous devons effectuer des vérifications en direct sur les données d'alimentation pour les erreurs d'estimation. L'ancien modèle produisant le flux de données (qui fournit la probabilité que événements se produisent dans le restant ) est approximativement distribué par Poisson. $T$ $0 \leq t < T$ $n$ $t$

Donc, pour vérifier les anomalies / erreurs, nous laissons $t$ le temps restant et $X_t$ le nombre total d'événements à se produire dans le temps restant $t$ . L'ancien modèle implique les estimations $\P(X_t \leq c)$ . Donc, selon notre hypothèse $X_t\sim \operatorname{Poisson}(\lambda_{t})$ nous avons:

P (X_{t} \leq c) = e^{- λ} \sum_{k = 0}^{c} \frac{λ_{t}^{k}}{k!} .

$\P(X_t \leq c) = e^{-\lambda}\sum_{k=0}^c\frac{\lambda_t^k}{k!}\,.$ Pour dériver notre taux d'événements

λ_{t}

$\lambda_t$ de la sortie de l'ancien modèle (observations

y_{t}

$y_{t}$ ), nous utilisons une approche de l'espace d'états et modélisons la relation d'état comme:

y_{t} = λ_{t} + ε_{t} (ε_{t} \sim N (0, H_{t})) .

$y_t = \lambda_t + \varepsilon_t\quad (\varepsilon_t \sim N(0, H_t))\,.$ Nous filtrons les observations de l'ancien modèle, en utilisant un modèle d'espace d'état [décroissance à vitesse constante] pour l'évolution du

λ_{t}

$\lambda_t$ afin d'obtenir l'état filtré

E (λ_{t} | Y_{t})

$E(\lambda_t|Y_t)$ et

une anomalie / erreur dans la fréquence d'événements estimée à partir de les données d'alimentation si

E (λ_{t} | Y_{t}) < y_{t}

$E(\lambda_t|Y_t) < y_t$ .

Cette approche fonctionne parfaitement bien pour détecter les erreurs dans le nombre d'événements estimés sur la période complète $T$ , mais pas si bien si nous voulons faire de même pour une autre période $0 \leq t < \sigma$ où $\sigma < \frac{2}{3} T$ . Pour contourner cela, nous avons décidé que nous voulons maintenant passer à l'utilisation de la distribution binomiale négative afin que nous maintenant $X_t\sim NB(r, p)$ et nous avons:

P (X_{t} \leq c) = p^{r} \sum_{k = 0}^{c} (1 - p)^{k} (\binom{k + r - 1}{r - 1}),

$\P(X_{t} \leq c) = p^{r}\sum_{k = 0}^c (1 - p)^{k}\binom{k + r -1}{r - 1},$ où le paramètre

λ

$\lambda$ est maintenant remplacé par

r

$r$ et

p

$p$ . Cela devrait être simple à mettre en œuvre, mais j'ai des difficultés d'interprétation et j'ai donc quelques questions que j'aimerais que vous aidiez:

1. Pouvons-nous simplement mettre $p = \lambda$ dans la distribution binomiale négative? Sinon, pourquoi pas?

2. En supposant que nous pouvons définir $p = f(\lambda)$ où $f$ est une fonction, comment pouvons-nous correctement définir $r$ (devons-nous ajuster $r$ utilisant les anciens ensembles de données)?

3. Est-ce que $r$ dépend du nombre d'événements que nous prévoyons de se produire au cours d'un processus donné?

Addendum à l'extraction des estimations pour $r$ (et $p$ ):

Je sais que si nous avions en fait inversé ce problème et que nous avions le nombre d'événements pour chaque processus, nous pourrions adopter l'estimateur du maximum de vraisemblance pour et . Bien sûr, l'estimateur du maximum de vraisemblance n'existe que pour les échantillons pour lesquels la variance de l'échantillon est supérieure à la moyenne de l'échantillon, mais si tel était le cas, nous pourrions définir la fonction de vraisemblance pour observations indépendantes identiquement distribuées as: partir duquel nous pouvons écrire la fonction log-vraisemblance comme: $r$ $p$ $N$ $k_1, k_2, \ldots, k_{N}$

L (r, p) = \prod_{je = 1}^{N} P (k_{je}; r, p),

$L(r, p) = \prod_{i = 1}^{N}\P(k_i; r, p),$

l (r, p) = \sum_{je = 1}^{N} \ln (Γ (k_{je} + r)) - \sum_{je = 1}^{N} \ln (k_{je}!) - N \ln (Γ (r)) + \sum_{je = 1}^{N} k_{je} \ln (p) + N r \ln (1 - p) .

$l(r, p) = \sum_{i = 1}^{N} \ln(\Gamma(k_i + r)) - \sum_{i = 1}^{N} \ln(k_{i}!) - N\ln(\Gamma(r)) + \sum_{i = 1}^{N} k_i \ln(p) + N r\ln(1 - p).$ Pour trouver le maximum, nous prenons les dérivées partielles par rapport à et et les mettons égales à zéro: Réglage et réglage on trouve:

r

$r$

p

$p$

\begin{aligned} \partial_{r} l (r, p) & = \sum_{je = 1}^{N} ψ (k_{je} + r) - N ψ (r) + N \ln (1 - p), \\ \partial_{p} l (r, p) & = \sum_{je = 1}^{N} k_{je} \frac{1}{p} - N r \frac{1}{1 - p} . \end{aligned}

$\begin{align*} \partial_{r} l(r, p) &= \sum_{i = 1}^{N} \psi(k_i + r) - N\psi(r) + N\ln(1 - p), \\ \partial_{p} l(r, p) &= \sum_{i = 1}^{N} k_i\frac{1}{p} - N r \frac{1}{1 - p} \enspace . \end{align*}$

\partial_{r} l (r, p) = \partial_{p} l (r, p) = 0

$\partial_{r} l(r, p) = \partial_{p} l(r, p) = 0$

p = \sum_{i = 1}^{N} \frac{k_{i}}{(N r + \sum_{i = 1}^{N} k_{i})},

$p = \displaystyle\sum_{i = 1}^{N} \displaystyle\frac{k_i} {(N r + \sum_{i = 1}^{N} k_i)},$

\partial_{r} l (r, p) = \sum_{je = 1}^{N} ψ (k_{je} + r) - N ψ (r) + N \ln (\frac{r}{r + \sum_{je = 1}^{N} \frac{k_{je}}{N}}) = 0.

$\partial_{r} l(r, p) = \sum_{i = 1}^{N} \psi(k_i + r) - N \psi(r) + N\ln\left(\frac{r}{r + \sum_{i = 1}^{N} \frac{k_i}{N}}\right) = 0.$ Cette équation ne peut pas être résolue pour r sous forme fermée en utilisant Newton ou même EM. Cependant, ce n'est pas le cas dans cette situation. Bien que nous puissions utiliser les données passées pour obtenir un et un statiques , ce n'est pas vraiment une utilité comme pour notre processus, nous devons adapter ces paramètres dans le temps, comme nous l'avons fait avec Poisson.

r

$r$

p

$p$

negative-binomial kalman-filter poisson-process state-space-models MoonKnight
la source

Pourquoi ne pas simplement brancher vos données dans un modèle de régression de Poisson ou binomial négatif?

StatsStudent

Je ne pense pas qu'il devrait avoir à utiliser. En gardant à l'esprit que Poisson est le cas limite du binôme négatif, il devrait y avoir un moyen de paramétrer ce problème de la même manière que je l'ai fait pour Poisson. De plus, ce processus se produit simultanément pour des milliers de processus de différence et aucun n'a le même "taux d'événements", ce qui signifie qu'une analyse de régression pour ces paramètres devrait être effectuée à chaque nouvelle observation pour tous les processus en direct. Ce n'est pas faisable. Merci beaucoup d'avoir pris le temps de lire ma question et mon commentaire, c'est très apprécié ...

MoonKnight

En termes de liaison de poisson à NB, si vous avez avec une variable de dispersion cachée sorte que et . Cela donnera une distribution NB marginale lors de l'intégration de . Vous pouvez l'utiliser pour vous aider.

(X_{t} | λ_{t}, r_{t}, g_{t}) \sim P o i s (λ_{t} g_{t})

$(X_t|\lambda_t,r_t,g_t)\sim Pois (\lambda_tg_t)$

(g_{t} | r_{t}) \sim G a m m a (r_{t}, r_{t})

$(g_t|r_t)\sim Gamma (r_t,r_t)$

E (g_{t}) = 1

$E (g_t)=1$

v a r (g_{t}) = r_{t}^{- 1}

$var(g_t)=r_t^{-1}$

g_{t}

$g_t$

probabilités

C'est une grande aide, mais pouvez-vous étoffer cela un peu plus et fournir des détails explicites? Merci beaucoup pour votre temps ...

MoonKnight

Qu'en est-il de l'utilisation du binôme plutôt que du binôme négatif? Cela peut être plus facile à faire. Anscombe FJ. La transformation des données de Poisson, binomiales et binomiales négatives. Biometrika. 1948; 35: 246-54.

Carl

Passer de la modélisation d'un processus à l'aide d'une distribution de Poisson pour utiliser une distribution binomiale négative?

Réponses: