Passer de données continues à catégoriques est-il toujours faux?

14

Lorsque j'ai lu comment configurer vos données, une chose que j'ai souvent rencontrée est que la transformation de certaines données continues en données catégoriques n'est pas une bonne idée, car vous pourriez très bien tirer une mauvaise conclusion si les seuils sont mal déterminés.

Cependant, j'ai actuellement des données (valeurs PSA pour les patients atteints de cancer de la prostate), où je pense que le consensus commun est que si vous avez moins de 4 ans, vous ne les avez probablement pas, si vous êtes au-dessus, vous êtes à risque, puis quelque chose comme au-dessus de 10 et 20, vous l'avez probablement. Quelque chose comme ca. Dans ce cas, serait-il toujours incorrect de classer mes valeurs PSA continues en groupes de disons 0-4, 4-10 et> 10? Ou est-ce en fait correct puisque les seuils sont "bien déterminés" pour ainsi dire.

Denver Dang
la source
5
Cela dépend (comme d'habitude). Par exemple, si vous étudiez la façon dont les médecins prendront des décisions et qu'ils prennent des décisions en fonction de ces catégories, il vous incombe d'utiliser les mêmes catégories. Si vous étudiez plutôt les conséquences biologiques associées à un PSA élevé, alors vous ne voulez probablement pas catégoriser le PSA du tout. Ainsi, il n'y a pas de réponse définitive à votre question générale "est-ce que ça va?"
whuber
Qu'essayez-vous de faire avec les données? Les frontières comme celle-ci ne sont-elles généralement pas liées à ce que vous voulez comprendre, de sorte que les mettre à la main pose la question?
RemcoGerlich
J'établis les données pour un modèle de régression logistique. La question principale est donc de savoir s'il faut simplement utiliser les données continues ou avoir des données discrètes à la place.
Denver Dang
1
Pour moi, ce que sont les données «continues» n'est pas clair. Ce n'est pas quelque chose qui existe dans la réalité. Il n'y a rien de tel qu'une mesure / statistique avec une précision infinie.
JimmyJames
1
@ BillHorvath Ouais, je ne suis pas médecin, donc je ne sais pas trop comment cela a été déterminé. Si vous jetez simplement un œil à la page Wiki, elle indique un endroit: "Les niveaux de PSA entre 4 et 10 ng / mL (nanogrammes par millilitre) sont considérés comme suspects et il faut envisager de confirmer le PSA anormal avec un test de répétition. " puis un autre endroit: "Faible risque: PSA <10, score de Gleason ≤ 6, ET stade clinique ≤ T2a Risque intermédiaire: PSA 10-20, score de Gleason 7, OU stade clinique T2b / c Risque élevé: PSA> 20 , Score de Gleason ≥ 8, OU stade clinique ≥ T3 "
Denver Dang

Réponses:

23

Y a-t-il une forte discontinuité à vos seuils?

Par exemple, supposons que vous ayez deux patients A et B avec les valeurs 3,9 et 4,1 et deux autres patients C et D avec les valeurs 6,7 et 6,9. La différence de probabilité de cancer entre A et B est-elle beaucoup plus grande que la différence correspondante entre C et D?

Si oui, alors la discrétisation a du sens.

Si ce n'est pas le cas, vos seuils peuvent avoir un sens dans la compréhension de vos données, mais ils ne sont pas "bien déterminés" dans un sens statistiquement significatif. Ne discrétisez pas. Au lieu de cela, utilisez vos résultats de test "tels quels", et si vous soupçonnez une sorte de non-linéarité, utilisez des .

Ceci est fortement recommandé.

Stephan Kolassa
la source
2
Ce lien en bas est plein de bons points. Les futurs lecteurs de cette réponse devraient la vérifier.
eric_kernfeld
Je pense que la discrétisation n'a de sens que s'il y a un grand saut dans le résultat à la pause proposée ET si le résultat est relativement homogène au sein de ces groupes. Sinon, il existe de meilleures façons d'aborder un "saut" dans la fonction @Stephan Kolassa
LSC
1

Je pense que la réponse standard est que c'est toujours mauvais parce que vous perdez des informations dans le processus. Il est difficile de croire qu'il y ait un cas où vous gagneriez à prendre des données d'intervalle naturel et à les rendre catégoriques.

user54285
la source
La situation appropriée serait celle où il y a une véritable discontinuité dans la relation de ce x particulier avec le DV et où au sein des "catégories" le résultat est relativement homogène.
LSC