Je travaille sur des données d'infection par la maladie, et je ne sais pas si je dois traiter les données comme "catégoriques" ou "continues".
- "Nombre d'infections"
- le nombre de cas d'infection trouvés dans une période de temps spécifique, le décompte est généré à partir de données catégorielles (c'est-à-dire le nombre de patients étiquetés comme "infectés")
"Journées du lit des patients"
- somme du nombre total de jours de séjour dans le service par tous les patients de ce service, encore une fois, le décompte est généré à partir de données catégorielles (c.-à-d. nombre de patients étiquetés comme «séjournant dans ce service particulier»)
"infection par jour d'hospitalisation"
- «nombre d'infection» / «jours d'hospitalisation» étaient tous deux à l'origine des données de comptage, mais deviennent désormais
Question:
- Puis-je utiliser Chi-Square ici pour évaluer si la différence entre les «infections par jour-lit de patient» est statistiquement significative ou non?
Mises à jour
J'ai trouvé que je peux comparer le taux d'incidence (ou l'appeler taux d'infection), mais en faisant quelque chose comme la «différence de taux d'incidence» (IRD) ou le «rapport de taux d'incidence» (IRR). (Je l'ai trouvé d' ici )
- Quelle est la différence entre IRD et t-test?
- Existe-t-il un test statistique complémentaire au TRI?
categorical-data
count-data
lokheart
la source
la source
Réponses:
Pour moi, cela ne semble pas du tout approprié d'utiliser un test du chi carré ici.
Je suppose que ce que vous voulez faire est le suivant: vous avez différents services ou traitements ou tout autre type de variable nominale (c'est-à-dire des groupes) qui divise vos données. Pour chacun de ces groupes, vous avez collecté le nombre d' infection et les jours d' hospitalisation pour calculer l' infection par jour d'hospitalisation . Sachez que vous voulez vérifier les différences entre les groupes, non?
Dans l'affirmative, une analyse de la variance (ANOVA, dans le cas de plus de deux groupes) ou un test t (dans le cas de deux groupes) est probablement approprié compte tenu des raisons exposées dans le post de Srikant Vadali (et si les hypothèses d'homogénéité des variances et des tailles de groupes comparables sont également respectées) et la
beginner
balise doit être ajoutée.la source
Je ne sais pas trop à quoi ressemblent vos données, ni quel est votre problème précis, mais je suppose que vous avez un tableau avec les en-têtes et le type suivants:
et vous voulez savoir si le taux d'infection est statistiquement différent pour les différents services?
Une façon de procéder consiste à utiliser un modèle de Poisson:
Ceci peut être réalisé en utilisant une glm de Poisson, avec la fonction de liaison logarithmique et le logarithme des jours-patients dans l'offset. Dans R, le code ressemblerait à quelque chose comme:
la source
Si vous envisagez d'effectuer des régressions de Poisson ou des régressions connexes sur ces données (avec votre variable de résultat en tant que taux), n'oubliez pas d'inclure un terme de décalage pour les jours d'hospitalisation car il devient techniquement l '«exposition» à vos dénombrements.
Cependant, dans ce cas, vous pouvez également envisager d'utiliser uniquement le nombre d'infections (et non le taux) comme variable dépendante, et inclure les jours d'hospitalisation comme covariable. Je travaille sur un ensemble de données avec un décompte similaire par rapport à une décision de taux et il semble que la conversion de votre variable dépendante en taux entraîne une diminution de la variabilité, une augmentation de l'asymétrie et un écart-type proportionnellement plus important. Cela rend plus difficile la détection d'effets significatifs.
Vérifiez également si vos données sont tronquées ou gonflées à zéro et effectuez les ajustements appropriés.
la source
D'un point de vue puriste technique, vous ne pouvez pas, car votre ratio «infection par jour d'hospitalisation» n'est pas une variable continue. Par exemple, une valeur irrationnelle n'apparaîtra jamais dans votre ensemble de données. Cependant, vous pouvez ignorer ce problème technique et effectuer les tests appropriés à votre contexte. Par analogie, les niveaux de revenus sont discrets mais presque tout le monde les considère comme continus.
Soit dit en passant, la raison pour laquelle vous voulez faire un chi carré n'est pas tout à fait claire, mais je suppose qu'il existe un certain contexte pour lequel cela a du sens pour vous.
la source
Les tests du chi carré ne semblent pas appropriés. Comme d'autres l'ont dit, à condition qu'il existe un nombre raisonnable de taux différents, vous pouvez traiter les données comme continues et effectuer une régression ou une ANOVA. Vous voudrez alors regarder la distribution des résidus.
la source
Une façon de procéder consiste à construire divers modèles nuls, chacun supposant que les facteurs sont indépendants les uns des autres. L'hypothèse d'indépendance les rend souvent faciles à construire. Les densités articulaires prévues sont alors les produits des densités marginales. Dans la mesure où les données réelles sont cohérentes avec celles-ci, vous savez que les facteurs sont indépendants. S'ils sont supérieurs ou inférieurs à la prédiction conjointe, vous pourrez peut-être en déduire qu'ils co-varient positivement ou négativement. Soyez prudent de considérer le nombre d'observations dans chaque cas, et vous pourrez peut-être le faire officiellement en traitant les populations comme une hypergéométrie étendue. Tout cela est dans l'esprit du Fisher Exact Test, mais Fisher l'a formulé pour que des situations plus générales puissent être modélisées. Voir, par exemple, Discrete Multivariate Analysis: Theory and Practice, par Yvonne M. Bishop,
la source