Un certain nombre de sources suggèrent qu'il existe de nombreuses conséquences négatives de la discrétisation (catégorisation) des variables continues avant l'analyse statistique (échantillon de références [1] - [4] ci-dessous).
Inversement [5] suggère que certaines techniques d'apprentissage automatique sont connues pour produire de meilleurs résultats lorsque les variables continues sont discrétisées (notant également que les méthodes de discrétisation supervisées fonctionnent mieux).
Je suis curieux de savoir s'il existe des avantages ou des justifications largement acceptées pour cette pratique d'un point de vue statistique?
En particulier, y aurait-il une justification pour discrétiser des variables continues dans une analyse GLM?
[1] Royston P, DG Altman, Sauerbrei W. Dichotomisation de prédicteurs continus en régression multiple: une mauvaise idée. Stat Med 2006; 25: 127-41
[2] Brunner J, Austin PC. Inflation du taux d'erreur de type I en régression multiple lorsque des variables indépendantes sont mesurées avec erreur. La Revue canadienne de statistique 2009; 37 (1): 33-46
[3] Irwin JR, McClelland GH. Conséquences négatives de la dichotomisation de variables prédictives continues. Journal of Marketing Research 2003; 40: 366–371.
[4] Harrell Jr FE. Problèmes causés par la catégorisation des variables continues. http://biostat.mc.vanderbilt.edu/twiki/bin/view/Main/CatContinuous, 2004. Consulté le 6.9.2004
[5] Kotsiantis, S.; Kanellopoulos, D. "Techniques de discrétisation: une enquête récente". GESTS International Transactions on Computer Science and Engineering 32 (1): 47–58.
Réponses:
Le but des modèles statistiques est de modéliser (approximativement) une réalité sous-jacente inconnue. Lorsque vous discrétisez quelque chose qui est naturellement continu, vous dites que toutes les réponses pour une plage de variables prédictives sont exactement les mêmes, puis il y a un saut soudain pour l'intervalle suivant. Croyez-vous vraiment que le monde naturel fonctionne en ayant une grande différence de réponse entre les valeurs x de 9,999 et 10,001 tout en n'ayant aucune différence entre 9,001 et 9,999 (en supposant que l'un des intervalles soit 9-10)? Je ne peux penser à aucun processus naturel que je considérerais comme plausible de cette façon.
Maintenant, il existe de nombreux processus naturels qui agissent de manière non linéaire, le changement de 8 à 9 dans le prédicteur peut faire un changement très différent dans la réponse qu'un changement de 10 à 11. Et donc un prédicteur discrétisé peut mieux s'adapter qu'un relation linéaire, mais c'est parce qu'il est permis plus de degrés de liberté. Mais, il existe d'autres façons d'autoriser des degrés de liberté supplémentaires, tels que les polynômes ou les splines, et ces options nous permettent de pénaliser pour obtenir un certain niveau de douceur et maintenir quelque chose qui est une meilleure approximation du processus naturel sous-jacent.
la source
Edit: En raison de la tendance des autres réponses que je vois, un bref avertissement: ma réponse est motivée par une perspective d'apprentissage automatique et non par une modélisation statistique.
Certains modèles, tels que Naive Bayes, ne fonctionnent pas avec des fonctionnalités continues. La discrétisation des fonctionnalités peut aider à les utiliser (beaucoup) mieux. Généralement, les modèles qui ne s'appuient pas sur le caractère "numérique" de la caractéristique (on pense aux arbres de décision) ne sont pas trop impactés tant que la discrétisation n'est pas trop brutale. Cependant, certains autres modèles seront largement moins performants si la discrétisation est trop importante. Par exemple, les GLM ne tireront absolument aucun avantage du processus.
Dans certains cas, lorsque la mémoire / le temps de traitement deviennent des facteurs limitants, la discrétisation des fonctionnalités permet d'agréger un ensemble de données, en réduisant sa taille et sa consommation de temps de mémoire / de calcul.
Donc, l'essentiel est que si vous n'êtes pas limité en termes de calcul et si votre modèle ne nécessite pas absolument de fonctionnalités discrètes, ne lancez pas la discrétisation des fonctionnalités. Sinon, considérez-le par tous les moyens.
la source