Vérifier si deux échantillons de Poisson ont la même moyenne

30

C'est une question élémentaire, mais je n'ai pas pu trouver la réponse. J'ai deux mesures: n1 événements au temps t1 et n2 événements au temps t2, tous deux produits (disons) par des processus de Poisson avec des valeurs lambda éventuellement différentes.

Il s'agit en fait d'un article de presse, qui prétend essentiellement que depuis que les deux sont différents, mais je ne suis pas sûr que la revendication soit valide. Supposons que les périodes de temps n'aient pas été choisies avec malveillance (pour maximiser les événements dans l'un ou l'autre).n1/t1n2/t2

Puis-je simplement faire un test t , ou cela ne serait-il pas approprié? Le nombre d'événements est trop petit pour que j'appelle confortablement les distributions approximativement normales.

Charles
la source
1
Beau spécimen de journalisme scientifique, là ...
Matt Parker
1
Ouais ... vous pouvez voir pourquoi je voulais vérifier les statistiques utilisées.
Charles

Réponses:

25

Pour tester la moyenne de Poisson, la méthode conditionnelle a été proposée par Przyborowski et Wilenski (1940). La distribution conditionnelle de X1 donnée X1 + X2 suit une distribution binomiale dont la probabilité de succès est fonction du rapport deux lambda. Par conséquent, les procédures de test d'hypothèse et d'estimation d'intervalle peuvent être facilement développées à partir des méthodes exactes pour faire des inférences sur la probabilité de réussite binomiale. Il existe généralement deux méthodes à cet effet,

  1. C-test
  2. E-test

Vous pouvez trouver les détails de ces deux tests dans cet article. Un test plus puissant pour comparer deux moyennes de Poisson

Wazir
la source
4
+1 Bonne référence, merci. Le test C est une version plus rigoureuse de celle que j'ai esquissée, il vaut donc la peine d'être considéré. Le test E relie une statistique t à une distribution appropriée. Le calcul de cette distribution implique une double somme infinie qui nécessitera des calculs pour converger: assez facile à coder, probablement exagéré pour vérifier le journal! O(n1n2)
whuber
1
L'auteur de l'article E-test a écrit une implémentation fortran simple pour calculer les valeurs de p pour deux moyens de poisson ici: ucs.louisiana.edu/~kxk4695 J'ai porté leur fortran vers MATLAB ici git.io/vNP86
AndyL
11

Que diriez-vous:

poisson.test(c(n1, n2), c(t1, t2), alternative = c("two.sided"))

Il s'agit d'un test qui compare les taux de Poisson de 1 et 2 et donne à la fois une valeur ap et un intervalle de confiance à 95%.

Rob van Gemert
la source
Il convient de noter que pour un problème à deux échantillons, cela utilise un test binomial pour comparer les taux
Jon
10

Vous recherchez une vérification rapide et facile.

λt=t1+t2[0,t1]n1[t1,t1+t2]n2

λ^=n1+n2t1+t2

njetjeλ^nje

whuber
la source
1
Merci (+1), c'est juste la bonne vérification pour ce genre de chose au pied levé. Il a fini par être très significatif (p = 0,005), donc l'article va bien. J'espère que cela ne vous dérange pas, cependant, d'avoir accepté l'autre réponse - il est bon de connaître la «vraie» façon de le faire quand cela est important.
Charles
5

Je serais plus intéressé par un intervalle de confiance qu'une valeur ap, voici une approximation bootstrap.

Calculer d'abord les longueurs des intervalles, et vérifier:

Lrec = as.numeric(as.Date("2010-07-01") - as.Date("2007-12-02")) # Length of recession
Lnrec = as.numeric(as.Date("2007-12-01") - as.Date("2001-12-01")) # L of non rec period
(43/Lrec)/(50/Lnrec)

[1] 2.000276

Cette vérification donne un résultat légèrement différent (augmentation de 100,03%) que celui de la publication (augmentation de 101%). Continuez avec le bootstrap (faites-le deux fois):

N = 100000
k=(rpois(N, 43)/Lrec)/(rpois(N, 50)/Lnrec)
c(quantile(k, c(0.025, .25, .5, .75, .975)), mean=mean(k), sd=sd(k))

     2.5%       25%       50%       75%     97.5%      mean        sd 
1.3130094 1.7338545 1.9994599 2.2871373 3.0187243 2.0415132 0.4355660 

     2.5%       25%       50%       75%     97.5%      mean        sd 
1.3130094 1.7351970 2.0013578 2.3259023 3.0173868 2.0440240 0.4349706 

L'intervalle de confiance à 95% de l'augmentation est de 31% à 202%.

GaBorgulya
la source