Comment gérer les données de comptage (données catégorielles), lorsqu'elles ont été converties en un taux?

9

Je travaille sur des données d'infection par la maladie, et je ne sais pas si je dois traiter les données comme "catégoriques" ou "continues".

  • "Nombre d'infections"
    • le nombre de cas d'infection trouvés dans une période de temps spécifique, le décompte est généré à partir de données catégorielles (c'est-à-dire le nombre de patients étiquetés comme "infectés")
  • "Journées du lit des patients"

    • somme du nombre total de jours de séjour dans le service par tous les patients de ce service, encore une fois, le décompte est généré à partir de données catégorielles (c.-à-d. nombre de patients étiquetés comme «séjournant dans ce service particulier»)
  • "infection par jour d'hospitalisation"

    • «nombre d'infection» / «jours d'hospitalisation» étaient tous deux à l'origine des données de comptage, mais deviennent désormais

Question:

  • Puis-je utiliser Chi-Square ici pour évaluer si la différence entre les «infections par jour-lit de patient» est statistiquement significative ou non?

Mises à jour

J'ai trouvé que je peux comparer le taux d'incidence (ou l'appeler taux d'infection), mais en faisant quelque chose comme la «différence de taux d'incidence» (IRD) ou le «rapport de taux d'incidence» (IRR). (Je l'ai trouvé d' ici )

  • Quelle est la différence entre IRD et t-test?
  • Existe-t-il un test statistique complémentaire au TRI?
lokheart
la source
1
Je pense que poser une autre question séparément est beaucoup mieux que de mettre à jour votre question précédente.

Réponses:

4

Pour moi, cela ne semble pas du tout approprié d'utiliser un test du chi carré ici.

Je suppose que ce que vous voulez faire est le suivant: vous avez différents services ou traitements ou tout autre type de variable nominale (c'est-à-dire des groupes) qui divise vos données. Pour chacun de ces groupes, vous avez collecté le nombre d' infection et les jours d' hospitalisation pour calculer l' infection par jour d'hospitalisation . Sachez que vous voulez vérifier les différences entre les groupes, non?

Dans l'affirmative, une analyse de la variance (ANOVA, dans le cas de plus de deux groupes) ou un test t (dans le cas de deux groupes) est probablement approprié compte tenu des raisons exposées dans le post de Srikant Vadali (et si les hypothèses d'homogénéité des variances et des tailles de groupes comparables sont également respectées) et la beginnerbalise doit être ajoutée.

Henrik
la source
7

Je ne sais pas trop à quoi ressemblent vos données, ni quel est votre problème précis, mais je suppose que vous avez un tableau avec les en-têtes et le type suivants:

service (catégorique), infections (nombre entier), jours-lit de patient (nombre entier ou continu).

et vous voulez savoir si le taux d'infection est statistiquement différent pour les différents services?

Une façon de procéder consiste à utiliser un modèle de Poisson:

Infections ~ Poisson (jours d'hospitalisation * taux d'infection en salle)

Ceci peut être réalisé en utilisant une glm de Poisson, avec la fonction de liaison logarithmique et le logarithme des jours-patients dans l'offset. Dans R, le code ressemblerait à quelque chose comme:

glm(infections ~ ward + offset(log(patient-bed-days)), family=poisson())
Simon Byrne
la source
2

Si vous envisagez d'effectuer des régressions de Poisson ou des régressions connexes sur ces données (avec votre variable de résultat en tant que taux), n'oubliez pas d'inclure un terme de décalage pour les jours d'hospitalisation car il devient techniquement l '«exposition» à vos dénombrements.

Cependant, dans ce cas, vous pouvez également envisager d'utiliser uniquement le nombre d'infections (et non le taux) comme variable dépendante, et inclure les jours d'hospitalisation comme covariable. Je travaille sur un ensemble de données avec un décompte similaire par rapport à une décision de taux et il semble que la conversion de votre variable dépendante en taux entraîne une diminution de la variabilité, une augmentation de l'asymétrie et un écart-type proportionnellement plus important. Cela rend plus difficile la détection d'effets significatifs.

Vérifiez également si vos données sont tronquées ou gonflées à zéro et effectuez les ajustements appropriés.

Iris Tsui
la source
Je pense que cette réponse se rapporte le plus directement à la question dans le titre de l'article, "Comment gérer les données de comptage (données catégorielles), lorsqu'elles ont été converties en un taux?"
N Brouwer
1

D'un point de vue puriste technique, vous ne pouvez pas, car votre ratio «infection par jour d'hospitalisation» n'est pas une variable continue. Par exemple, une valeur irrationnelle n'apparaîtra jamais dans votre ensemble de données. Cependant, vous pouvez ignorer ce problème technique et effectuer les tests appropriés à votre contexte. Par analogie, les niveaux de revenus sont discrets mais presque tout le monde les considère comme continus.

Soit dit en passant, la raison pour laquelle vous voulez faire un chi carré n'est pas tout à fait claire, mais je suppose qu'il existe un certain contexte pour lequel cela a du sens pour vous.


la source
1

Les tests du chi carré ne semblent pas appropriés. Comme d'autres l'ont dit, à condition qu'il existe un nombre raisonnable de taux différents, vous pouvez traiter les données comme continues et effectuer une régression ou une ANOVA. Vous voudrez alors regarder la distribution des résidus.

Peter Flom
la source
0

Une façon de procéder consiste à construire divers modèles nuls, chacun supposant que les facteurs sont indépendants les uns des autres. L'hypothèse d'indépendance les rend souvent faciles à construire. Les densités articulaires prévues sont alors les produits des densités marginales. Dans la mesure où les données réelles sont cohérentes avec celles-ci, vous savez que les facteurs sont indépendants. S'ils sont supérieurs ou inférieurs à la prédiction conjointe, vous pourrez peut-être en déduire qu'ils co-varient positivement ou négativement. Soyez prudent de considérer le nombre d'observations dans chaque cas, et vous pourrez peut-être le faire officiellement en traitant les populations comme une hypergéométrie étendue. Tout cela est dans l'esprit du Fisher Exact Test, mais Fisher l'a formulé pour que des situations plus générales puissent être modélisées. Voir, par exemple, Discrete Multivariate Analysis: Theory and Practice, par Yvonne M. Bishop,

Jan Galkowski
la source