Lorsque j'ai lu comment configurer vos données, une chose que j'ai souvent rencontrée est que la transformation de certaines données continues en données catégoriques n'est pas une bonne idée, car vous pourriez très bien tirer une mauvaise conclusion si les seuils sont mal déterminés.
Cependant, j'ai actuellement des données (valeurs PSA pour les patients atteints de cancer de la prostate), où je pense que le consensus commun est que si vous avez moins de 4 ans, vous ne les avez probablement pas, si vous êtes au-dessus, vous êtes à risque, puis quelque chose comme au-dessus de 10 et 20, vous l'avez probablement. Quelque chose comme ca. Dans ce cas, serait-il toujours incorrect de classer mes valeurs PSA continues en groupes de disons 0-4, 4-10 et> 10? Ou est-ce en fait correct puisque les seuils sont "bien déterminés" pour ainsi dire.
la source
Réponses:
Y a-t-il une forte discontinuité à vos seuils?
Par exemple, supposons que vous ayez deux patients A et B avec les valeurs 3,9 et 4,1 et deux autres patients C et D avec les valeurs 6,7 et 6,9. La différence de probabilité de cancer entre A et B est-elle beaucoup plus grande que la différence correspondante entre C et D?
Si oui, alors la discrétisation a du sens.
Si ce n'est pas le cas, vos seuils peuvent avoir un sens dans la compréhension de vos données, mais ils ne sont pas "bien déterminés" dans un sens statistiquement significatif. Ne discrétisez pas. Au lieu de cela, utilisez vos résultats de test "tels quels", et si vous soupçonnez une sorte de non-linéarité, utilisez des splines .
Ceci est fortement recommandé.
la source
Je pense que la réponse standard est que c'est toujours mauvais parce que vous perdez des informations dans le processus. Il est difficile de croire qu'il y ait un cas où vous gagneriez à prendre des données d'intervalle naturel et à les rendre catégoriques.
la source