Nous avons un processus aléatoire qui peut ou mai ne pas se produire plusieurs fois dans une période de temps définie . Nous avons un flux de données à partir d'un modèle préexistant de ce processus, qui fournit la probabilité qu'un certain nombre d'événements se produisent dans la période . Ce modèle existant est ancien et nous devons effectuer des vérifications en direct sur les données d'alimentation pour les erreurs d'estimation. L'ancien modèle produisant le flux de données (qui fournit la probabilité que événements se produisent dans le restant ) est approximativement distribué par Poisson.
Donc, pour vérifier les anomalies / erreurs, nous laissons le temps restant et le nombre total d'événements à se produire dans le temps restant . L'ancien modèle implique les estimations . Donc, selon notre hypothèse nous avons:
Cette approche fonctionne parfaitement bien pour détecter les erreurs dans le nombre d'événements estimés sur la période T complète , mais pas si bien si nous voulons faire de même pour une autre période où . Pour contourner cela, nous avons décidé que nous voulons maintenant passer à l'utilisation de la distribution binomiale négative afin que nous supposions maintenant X_t \ sim NB (r, p) et nous avons:
1. Pouvons-nous simplement mettre dans la distribution binomiale négative? Sinon, pourquoi pas?
2. En supposant que nous pouvons définir où est une fonction, comment pouvons-nous correctement définir (devons-nous ajuster utilisant les anciens ensembles de données)?
3. Est-ce que dépend du nombre d'événements que nous prévoyons de se produire au cours d'un processus donné?
Addendum à l'extraction des estimations pour (et ):
Je sais que si nous avions en fait inversé ce problème et que nous avions le nombre d'événements pour chaque processus, nous pourrions adopter l'estimateur du maximum de vraisemblance pour et . Bien sûr, l'estimateur du maximum de vraisemblance n'existe que pour les échantillons pour lesquels la variance de l'échantillon est supérieure à la moyenne de l'échantillon, mais si tel était le cas, nous pourrions définir la fonction de vraisemblance pour observations indépendantes identiquement distribuées as: partir duquel nous pouvons écrire la fonction log-vraisemblance comme: p N k 1 , k 2 , … , k N L ( r , p ) = N ∏ i = 1 P ( k i ; r , p ) , l ( r , p ) = N ∑ i = 1 ln ( Γ ( k i + r ) ) - N ∑ =
Réponses:
La distribution binomiale négative est très similaire au modèle de probabilité binomiale. il est applicable lorsque les hypothèses (conditions) suivantes sont valables 1) Toute expérience est réalisée dans les mêmes conditions jusqu'à ce qu'un nombre fixe de succès, disons C, soit atteint 2) Le résultat de chaque expérience peut être classé dans l'une des deux catégories , succès ou échec 3) La probabilité P de succès est la même pour chaque expérience 40 Chaque expérience est indépendante de toutes les autres. La première condition est le seul facteur de différenciation clé entre binôme et binôme négatif
la source
La distribution de poisson peut être une approximation raisonnable du binôme dans certaines conditions comme 1) La probabilité de succès pour chaque essai est très faible. P -> 0 2) np = m (disons) est finete La règle la plus souvent utilisée par les statisticiens est que le poisson est une bonne approximation du binôme lorsque n est égal ou supérieur à 20 et p est égal ou inférieur à 5 %
la source