Erreur standard d'un comptage

14

J'ai un ensemble de données sur les cas incidents par saison d'une maladie rare. Par exemple, disons qu'il y a eu 180 cas au printemps, 90 en été, 45 en automne et 210 en hiver. Je me demande s'il est approprié de joindre des erreurs standard à ces chiffres. Les objectifs de recherche sont inférentiels dans le sens où nous recherchons un schéma saisonnier de l'incidence des maladies qui pourrait se reproduire à l'avenir. Ainsi, il semble intuitivement qu'il devrait être possible d'attacher une mesure d'incertitude aux totaux. Cependant, je ne sais pas comment on pourrait calculer une erreur standard dans ce cas, car il s'agit de comptes simples plutôt que, par exemple, de moyennes ou de proportions.

Enfin, la réponse dépendrait-elle de la question de savoir si les données représentent la population de cas (tous les cas qui se sont déjà produits) ou un échantillon aléatoire? Si je ne me trompe pas, il n'est généralement pas logique de présenter des erreurs types avec les statistiques démographiques, car il n'y a pas d'inférence.

poisson-distribution standard-error count-data demi-passe
la source

Le nombre est juste une proportion non normalisée afin que vous puissiez calculer st. erreur de proportion et "dé-normaliser" en unités de comptage, si cela fait sens pour vous. Vous avez raison ce st. l'erreur ne s'applique qu'à l'échantillon. En population, il n'y a pas d'erreur.

ttnphns

14

La population est l'ensemble (hypothétique) de toutes les personnes qui risquent de contracter la maladie; généralement, il s'agit de toutes les personnes (ou d'un sous-groupe de personnes clairement identifiables) résidant dans la zone d'étude. Il est important de définir clairement cette population, car elle est la cible de l'étude et de toutes les inférences faites à partir des données.

Lorsque les cas de la maladie sont indépendants (ce qui pourrait être une hypothèse raisonnable lorsque la maladie n'est pas facilement communiquée entre les personnes et n'est pas causée par les conditions environnementales locales) et qu'ils sont rares, les dénombrements doivent suivre de près une distribution de Poisson . Pour cette distribution, une bonne estimation de son écart-type est la racine carrée du dénombrement .

$(180, 90, 45, 210)$ $(13.4, 9.5, 6.7, 14.5)$ événement, le nombre réel de maladies observées au cours d'une saison variera par rapport à ce taux réel. La racine carrée du taux réel (mais inconnu!) Quantifie la quantité de variation susceptible de se produire. Étant donné que les dénombrements observés devraient être proches des taux réels, leurs racines carrées devraient être des substituts raisonnables des racines carrées des taux réels. Ces procurations sont exactement ce que l'on entend par «erreur standard».

$165$ $77$ $14.5$ $77$

$9$ $(20, 10, 5, 23)$ $(4.5, 3.2, 2.2, 4.8)$ . Multipliant par $9$ convertir des grappes en personnes donne $(40, 28.5, 20, 44)$ . Remarquez à quel point ces valeurs sont plus grandes qu'auparavant: le clustering augmente l'erreur relative.

C'est à peu près aussi loin que l'on peut aller avec ces données limitées. Ces calculs simples ont révélé que:

Il est essentiel de caractériser la population,
La racine carrée d'un compte est un point de départ approximatif pour évaluer son erreur standard,
La racine carrée doit être multipliée (approximativement) par un facteur pour refléter le manque d'indépendance des cas de maladie (et ce facteur peut être approximativement lié à la taille des grappes de maladies),
La variation entre ces dénombrements reflète principalement la variation du taux de maladie dans le temps plutôt que l'incertitude (concernant l'intensité de Poisson sous-jacente).

whuber
la source

1

Réponse très réfléchie et approfondie! Merci beaucoup.

demi-passe du

2

Je ne suis pas facétieux quand je demande, "Erreur standard de quoi?" Vous pouvez prendre la moyenne de ces quatre chiffres et calculer l'erreur standard de cette moyenne. Cette statistique et l'intervalle de confiance qui en résulte auraient un sens si vous pensiez que vous étiez justifié de traiter ces 4 saisons comme représentatives de tous les ensembles de 4 saisons auxquels vous pourriez généraliser. Dans la mesure où vous êtes ainsi justifié, les données dont vous disposez seraient en effet un échantillon aléatoire de la population. L'échantillonnage que vous mentionnez impliquerait une couche supplémentaire d'échantillonnage - vous pourriez l'appeler échantillonnage en grappes, où chaque année constitue une grappe.

rolando2
la source

Erreur standard d'un comptage

Réponses: