Dans quelle mesure la distribution de Poisson de la distribution des événements est-elle réellement représentative?

8

Je me suis toujours demandé à quel point la distribution de Poisson était bonne pour les événements que nous observons en réalité. Presque toujours, je l'ai vu être utilisé pour modéliser l'occurrence d'événements. (Par exemple, arrivée de voitures dans un parking ou le nombre ou les messages envoyés / reçus par les ordinateurs hôtes sur un réseau, etc.)

Nous modélisons généralement ces événements par la distribution de Poisson. La distribution est-elle juste une bonne première approximation de la façon dont les choses se produisent dans la réalité? Si j'observe le nombre de voitures / jour ou de messages / jour dans les deux exemples ci-dessus et ceux qui sont sortis en «sélectionnant dans la distribution», en quoi diffèrent-ils? Quelle est la qualité d'une approximation de Poisson? (S'agit-il d'une approximation?) Quelle est la «magie» derrière Poisson pour que ce soit juste (intuitivement parlant :)?

Doctorat
la source
4
Il y a de bons points de départ si vous dérivez Google de la distribution de poisson, qui montrent comment Poisson est magiquement dérivé de la distribution binomiale où n est grand et la probabilité d'un événement est petite. À partir de là, il devient logique de l'utiliser pour modéliser les événements de comptage. Je suppose que la question est de savoir dans quelle mesure les événements de comptage réel correspondent à cette extension en douceur de la situation binomiale.
Peter Ellis

Réponses:

5

Un exemple pour lequel je peux parler est la vente en supermarché de biens de consommation emballés (GPC). Ce sont également des événements de comptage - le supermarché peut vendre 0 unités par jour, ou 1, ou 2 et ainsi de suite, de sorte que la distribution de Poisson semble être un bon premier ajustement.

Cependant, la distribution binomiale sous-jacente @PeterEllis notes ne tient pas. Oui, nous pourrons peut-être modéliser le nombre de clients avec un binôme ... mais certains clients achèteront 1 unité, certains achèteront 2 unités et certains chargeront leurs garde-manger et achèteront 10 unités.

Le résultat sera généralement sur-dispersé, de sorte qu'une distribution binomiale négative s'adapte beaucoup mieux qu'une distribution de Poisson. (Parfois, nous pouvons même voir une sous-dispersion pour les articles à déplacement très rapide comme le lait).

Stephan Kolassa
la source
3
+1. Je pensais simplement qu'il valait la peine de mentionner que le Poisson est un cas particulier du binôme négatif et qu'une façon de dériver le binôme négatif est un mélange de nombreuses distributions de Poisson différentes avec des moyennes différentes.
David J. Harris
4

Si les choses comptées sont indépendantes les unes des autres et que le taux est constant (ou suit un modèle comme dans la régression de poisson), alors la distribution de Poisson se tiendra généralement assez bien. Des exemples comme les voitures arrivant dans un garage ont tendance à fonctionner assez bien (sur des périodes où le taux est assez constant, y compris les heures de pointe et le milieu de la nuit pour un garage fréquenté par 9 à 5 travailleurs ne fonctionnerait pas bien). L'heure à laquelle vous arrivez au garage aura peu ou d'influence sur l'heure à laquelle j'arrive. Il existe cependant des exceptions dans la mesure où si 2 personnes se rencontrent à un moment donné, elles sont susceptibles d'arriver plus près l'une de l'autre, si l'une suit l'autre, elles seront encore plus proches. Des choses comme un feu de circulation à proximité pourraient également provoquer des bouchons dans les arrivées qui ne correspondraient pas à un Poisson.

Si vous souhaitez comparer un ensemble de données spécifique pour voir si le Poisson est une bonne correspondance, vous pouvez utiliser un rootogramme suspendu .

Greg Snow
la source
1
+ pour le rootogramme suspendu!
Mike Dunlavey
2

Comme le dit @Stephan, le Poisson droit peut ne pas avoir suffisamment de variance pour être un bon modèle de mesures entières non négatives réelles régies par une fonction de risque. Ainsi, souvent le binôme négatif est utilisé, qui a un paramètre supplémentaire déterminant la sur-dispersion. Je l'ai trouvé utile de paramétrer par car à mesure que la sur-dispersion approche de 0, ce qui signifie que le binôme négatif s'approche de Poisson, le binôme négatif devient difficile à calculer.α>0β=ln(α)α

Une autre façon d'augmenter la dispersion est l'inflation zéro, qui peut être appliquée à Poisson ou à un binôme négatif. Pour l'utiliser, à chaque temps de mesure, effectuez d'abord un essai de Bernoulli (lancez une pièce). Si la pièce est "têtes", la mesure est 0. Sinon, la mesure est tirée de la distribution binomiale de Poisson ou négative.

Mike Dunlavey
la source
2

J'ai vu que si les événements s'avèrent réguliers, alors le modèle de Poisson surestime la variance (logique et évidente), tandis que si les événements s'avèrent être groupés, le modèle de Poisson sous-estime la variance. La distribution de Poisson est générée à partir d'un processus ponctuel de Poisson aléatoire.

Mon ancien manuel recommande Cox, DR et Miller, HD (1965) La théorie des processus stochastiques pub. Wiley pour plus de lecture. Dans le livre d'introduction, une équation différentielle de premier ordre est dérivée pour un tel processus aléatoire, qui est résolue pour donner la probabilité d'observer aucun événement au temps , où est le taux d'événements et est le temps, puis en considérant etc. la formule générale de Poisson est dérivée par inspection. C. Chatfield Statistics for technology: a course in applied statistics , 2nd Ed. 1978, pub. Chapman et Hall: voir pages 70-75.tP(0,t)=eatatP(1,t),P(2,t),

Ces deux exemples violent l'exigence de caractère aléatoire sous-jacente. Si les événements sont plus ou moins aléatoires, le modèle de Poisson est un modèle juste. Les voitures arrivant dans un parking très fréquenté du centre-ville peuvent être un exemple d'ensemble de données en cluster, dû à 9 à 5 utilisateurs, peut-être?

Peter Bennett
la source