Comment calculer un niveau de confiance pour une distribution de Poisson?

32

Je voudrais savoir à quel point je peux avoir confiance en mon . Quelqu'un connaît-il un moyen de fixer des niveaux de confiance supérieurs et inférieurs pour une distribution de Poisson?λ

  • Observations ( ) = 88n
  • Échantillon moyen ( ) = 47,18182λ

à quoi ressemblerait la confiance de 95%?

Travis
la source
Vous pourriez également envisager d'amorcer vos estimations. Voici un petit tutoriel sur le bootstrap.
Mark T Patterson

Réponses:

27

Pour Poisson, la moyenne et la variance sont toutes deux . Si vous voulez l'intervalle de confiance autour de lambda, vous pouvez calculer l'erreur standard comme λ .λ/n

L'intervalle de confiance de 95 pour cent est X ± 1,96 .λ^±1.96λ^/n

Nick Stauner
la source
26
C'est bien quand est grand, car alors le Poisson est adéquatement approché par une distribution normale. Pour des valeurs plus petites ou une confiance plus élevée, de meilleurs intervalles sont disponibles. Voir math.mcmaster.ca/peter/s743/poissonalpha.html pour deux d'entre eux ainsi qu'une analyse de leur couverture réelle. (Ici, l'intervalle "exact" est (45,7575, 48,6392), l'intervalle "Pearson" est (45,7683, 48,639), et l'approximation normale donne (45,7467, 48,617): c'est un peu trop bas, mais assez proche, car n λ = 4152 ).nλnλ=4152
whuber
4
Pour les autres confus comme moi: voici une description de l'origine du 1.96.
mjibson
2
Comment avez-vous calculé l'intervalle exact de ce problème compte tenu des informations fournies par whuber sur ce site Web? Je n'ai pas pu suivre car ce site semble indiquer uniquement comment procéder lorsque vous avez un échantillon. Peut-être que je ne comprends tout simplement pas quelque chose de simple mais ma distribution a une valeur beaucoup plus petite de lambda (n) donc je ne peux pas utiliser l'approximation normale et je ne sais pas comment calculer la valeur exacte. Toute aide serait grandement appréciée. Merci!
Ici, ils utilisent l'écart type de la moyenne, non? C'est SE = sig/sqrt(N) = sqrt(lam/N),? Cela aurait du sens puisque l'écart-type des valeurs uniques signous indique la probabilité de tirer des échantillons aléatoires de la distribution de Poisson, tandis que la SEdéfinition ci-dessus nous indique notre confiance lam, compte tenu du nombre d'échantillons que nous avons utilisés pour l'estimer.
AlexG
17

Cet article présente 19 façons différentes de calculer un intervalle de confiance pour la moyenne d'une distribution de Poisson.

http://www.ine.pt/revstat/pdf/rs120203.pdf

À M
la source
2
Malgré la notification du mod ici, j'aime cette réponse telle quelle, car elle souligne qu'il n'y a pas de consensus général sur la façon d'évaluer un système de Poisson mesuré.
Carl Witthoft
7

En plus des réponses que d'autres ont fournies, une autre approche de ce problème est réalisée grâce à une approche basée sur un modèle. L'approche du théorème de la limite centrale est certainement valide, et les estimations bootstrapées offrent beaucoup de protection contre les petits échantillons et les problèmes de mauvaise spécification de mode.

Pour plus d'efficacité, vous pouvez obtenir un meilleur intervalle de confiance pour en utilisant une approche basée sur un modèle de régression. Pas besoin de passer par des dérivations, mais un calcul simple dans R va comme ceci:λ

x <- rpois(100, 14)
exp(confint(glm(x ~ 1, family=poisson)))

Il s'agit d'une estimation d'intervalle non symétrique, sachez que le paramètre naturel du poisson glm est le taux relatif logarithmique! C'est un avantage car les données de comptage ont tendance à être inclinées vers la droite.

L'approche ci-dessus a une formule et c'est:

exp(logλ^±1nλ^)

Cet intervalle de confiance est "efficace" dans le sens où il provient de l'estimation du maximum de vraisemblance sur l'échelle des paramètres naturels (log) pour les données de Poisson, et fournit un intervalle de confiance plus serré que celui basé sur l'échelle de comptage tout en maintenant la couverture nominale de 95% .

AdamO
la source
+1 Je pense que j'utiliserais un adjectif différent de celui de l'efficacité (ou pour être plus clair, vous voulez dire l'efficacité du golf de calcul ou de code). le commentaire de whuber pointe vers une ressource qui donne des intervalles exacts, et l'approche glm est également basée sur des résultats asymptotiques. (C'est plus général cependant, j'aime donc recommander cette approche également.)
Andy W
μ
1
Quelle est votre autorité pour cette formule. Pouvons-nous avoir une citation?
pauljohn32
@AndyW: votre lien n'est pas valide pour la simulation rapide
pauljohn32
1
@ pauljohn32 consultez le texte de Casella Berger en particulier sur la famille exponentielle, le taux de journalisation est le paramètre naturel.
AdamO
5

Étant donné une observation d'une distribution de Poisson ,

  • le nombre d'événements comptés est n.
  • λσ2

Pas à pas,

  • λ^=nλ
  • n>20σ

stderr=σ=λn

Maintenant, l'intervalle de confiance à 95% est,

I=λ^±1.96 stderr=n±1.96 n

[Modifié] Quelques calculs basés sur les données de la question,

  • λ

    Je fais cette hypothèse car la question d'origine ne fournit aucun contexte sur l'expérience ou sur la façon dont les données ont été obtenues (ce qui est de la plus haute importance lors de la manipulation des données statistiques).

  • L'intervalle de confiance à 95% est, pour le cas particulier,

I=λ±1.96 stderr=λ±1.96 λ=47.18182±1.96 47.18182[33.72,60.64]

Par conséquent, comme la mesure (n = 88 événements) est en dehors de l'intervalle de confiance à 95%, nous concluons que,

  1. Le processus ne suit pas un processus de Poisson, ou,

  2. λ


λ/n

jose.angel.jimenez
la source
1
λnλ
2
λλ
2
Je pense que la réponse de jose.angel.jiminez ci-dessus est incorrecte et découle d'une mauvaise lecture de la question d'origine. L'affiche originale indiquait «Observations (n) = 88» - c'était le nombre d'intervalles de temps observés, pas le nombre d'événements observés globalement ou par intervalle. Le nombre moyen d'événements par intervalle, sur l'échantillon de 88 intervalles d'observation, est le lambda donné par l'affiche originale. (J'aurais inclus cela en tant que commentaire dans le message de Jose, mais je suis trop nouveau sur le site pour être autorisé à commenter.)
user44436
@ user44436 a ajouté une réponse qui était censée être un commentaire. Je le republie comme un commentaire afin que vous puissiez le voir et parce que comme non-réponse, il peut être supprimé: ------- Je pense que la réponse de jose ci-dessus est incorrecte et découle d'une mauvaise lecture de la question d'origine. L'affiche originale indiquait Observations (n) = 88 - c'était le nombre d'intervalles de temps observés, pas le nombre d'événements observés globalement ou par intervalle. Le nombre moyen d'événements par intervalle sur l'échantillon de 88 intervalles d'observation est le lambda donné par l'affiche originale.
Mörre