J'ai un ensemble de données sur les cas incidents par saison d'une maladie rare. Par exemple, disons qu'il y a eu 180 cas au printemps, 90 en été, 45 en automne et 210 en hiver. Je me demande s'il est approprié de joindre des erreurs standard à ces chiffres. Les objectifs de recherche sont inférentiels dans le sens où nous recherchons un schéma saisonnier de l'incidence des maladies qui pourrait se reproduire à l'avenir. Ainsi, il semble intuitivement qu'il devrait être possible d'attacher une mesure d'incertitude aux totaux. Cependant, je ne sais pas comment on pourrait calculer une erreur standard dans ce cas, car il s'agit de comptes simples plutôt que, par exemple, de moyennes ou de proportions.
Enfin, la réponse dépendrait-elle de la question de savoir si les données représentent la population de cas (tous les cas qui se sont déjà produits) ou un échantillon aléatoire? Si je ne me trompe pas, il n'est généralement pas logique de présenter des erreurs types avec les statistiques démographiques, car il n'y a pas d'inférence.
la source
Réponses:
La population est l'ensemble (hypothétique) de toutes les personnes qui risquent de contracter la maladie; généralement, il s'agit de toutes les personnes (ou d'un sous-groupe de personnes clairement identifiables) résidant dans la zone d'étude. Il est important de définir clairement cette population, car elle est la cible de l'étude et de toutes les inférences faites à partir des données.
Lorsque les cas de la maladie sont indépendants (ce qui pourrait être une hypothèse raisonnable lorsque la maladie n'est pas facilement communiquée entre les personnes et n'est pas causée par les conditions environnementales locales) et qu'ils sont rares, les dénombrements doivent suivre de près une distribution de Poisson . Pour cette distribution, une bonne estimation de son écart-type est la racine carrée du dénombrement .
C'est à peu près aussi loin que l'on peut aller avec ces données limitées. Ces calculs simples ont révélé que:
Il est essentiel de caractériser la population,
La racine carrée d'un compte est un point de départ approximatif pour évaluer son erreur standard,
La racine carrée doit être multipliée (approximativement) par un facteur pour refléter le manque d'indépendance des cas de maladie (et ce facteur peut être approximativement lié à la taille des grappes de maladies),
La variation entre ces dénombrements reflète principalement la variation du taux de maladie dans le temps plutôt que l'incertitude (concernant l'intensité de Poisson sous-jacente).
la source
Je ne suis pas facétieux quand je demande, "Erreur standard de quoi?" Vous pouvez prendre la moyenne de ces quatre chiffres et calculer l'erreur standard de cette moyenne. Cette statistique et l'intervalle de confiance qui en résulte auraient un sens si vous pensiez que vous étiez justifié de traiter ces 4 saisons comme représentatives de tous les ensembles de 4 saisons auxquels vous pourriez généraliser. Dans la mesure où vous êtes ainsi justifié, les données dont vous disposez seraient en effet un échantillon aléatoire de la population. L'échantillonnage que vous mentionnez impliquerait une couche supplémentaire d'échantillonnage - vous pourriez l'appeler échantillonnage en grappes, où chaque année constitue une grappe.
la source