J'ai généré un vecteur qui a une distribution de Poisson, comme suit:
x = rpois(1000,10)
Si je fais un histogramme en utilisant hist(x)
, la distribution ressemble à une distribution normale en forme de cloche familière. Cependant, un test de Kolmogorov-Smirnoff utilisant ks.test(x, 'pnorm',10,3)
indique que la distribution est significativement différente d'une distribution normale, en raison de sa très petite p
valeur.
Ma question est donc la suivante: en quoi la distribution de Poisson diffère-t-elle d'une distribution normale, lorsque l'histogramme ressemble tellement à une distribution normale?
Réponses:
Une distribution de Poisson est discrète tandis qu'une distribution normale est continue, et une variable aléatoire de Poisson est toujours> = 0. Ainsi, un test de Kolgomorov-Smirnov sera souvent en mesure de faire la différence.
Lorsque la moyenne d'une distribution de Poisson est grande, elle devient similaire à une distribution normale. Cependant,
rpois(1000, 10)
ne semble même pas que semblable à une distribution normale (il arrête à 0 et la queue droite est trop long).Pourquoi le comparez-vous10−−√
ks.test(..., 'pnorm', 10, 3)
plutôt queks.test(..., 'pnorm', 10, sqrt(10))
? La différence entre 3 et est petit mais fera lui-même une différence lors de la comparaison des distributions. Même si la distribution était vraiment normale, vous vous retrouveriez avec une distribution de valeur p anti-conservatrice:la source
hist(replicate(1000, ks.test(rpois(1000, 10), rpois(1000, 10))$p.value))
montre qu'un test comparant deux distributions de Poisson identiques serait trop conservateur.Voici un moyen beaucoup plus simple de le comprendre:
Vous pouvez considérer la distribution binomiale comme la «mère» de la plupart des distributions. La distribution normale n'est qu'une approximation de la distribution binomiale lorsque n devient suffisamment grand. En fait, Abraham de Moivre a essentiellement découvert la distribution normale en essayant d'approximer la distribution binomiale, car il devient rapidement incontrôlable de calculer la distribution binomiale à mesure que n croît, surtout lorsque vous n'avez pas d'ordinateur ( référence ).
La distribution de Poisson n'est également qu'une autre approximation de la distribution binomiale, mais elle est bien meilleure que la distribution normale lorsque n est grand et p est petit, ou plus précisément lorsque la moyenne est approximativement la même que la variance (rappelez-vous que pour la distribution binomiale, moyenne = np et var = np (1-p)) ( référence ). Pourquoi cette situation particulière est-elle si importante? Apparemment, cela fait beaucoup surface dans le monde réel et c'est pourquoi nous avons cette approximation "spéciale". L'exemple ci-dessous illustre des scénarios où l'approximation de Poisson fonctionne vraiment bien.
Exemple
Nous avons un centre de données de 100 000 ordinateurs. La probabilité qu'un ordinateur donné tombe en panne aujourd'hui est de 0,001. Donc en moyenne np = 100 ordinateurs tombent en panne dans le centre de données. Quelle est la probabilité que seulement 50 ordinateurs tombent en panne aujourd'hui?
En fait, la qualité d'approximation pour la distribution normale descend dans le drain lorsque nous allons dans la queue de la distribution, mais Poisson continue de tenir très bien. Dans l'exemple ci-dessus, considérons quelle est la probabilité que seulement 5 ordinateurs tombent en panne aujourd'hui?
Espérons que cela vous donne une meilleure compréhension intuitive de ces 3 distributions.
la source
Un développement assez long peut être trouvé sur ce blog .
la source