Quelle est la justification d'une discrétisation non supervisée de variables continues?

8

Un certain nombre de sources suggèrent qu'il existe de nombreuses conséquences négatives de la discrétisation (catégorisation) des variables continues avant l'analyse statistique (échantillon de références [1] - [4] ci-dessous).

Inversement [5] suggère que certaines techniques d'apprentissage automatique sont connues pour produire de meilleurs résultats lorsque les variables continues sont discrétisées (notant également que les méthodes de discrétisation supervisées fonctionnent mieux).

Je suis curieux de savoir s'il existe des avantages ou des justifications largement acceptées pour cette pratique d'un point de vue statistique?

En particulier, y aurait-il une justification pour discrétiser des variables continues dans une analyse GLM?



[1] Royston P, DG Altman, Sauerbrei W. Dichotomisation de prédicteurs continus en régression multiple: une mauvaise idée. Stat Med 2006; 25: 127-41

[2] Brunner J, Austin PC. Inflation du taux d'erreur de type I en régression multiple lorsque des variables indépendantes sont mesurées avec erreur. La Revue canadienne de statistique 2009; 37 (1): 33-46

[3] Irwin JR, McClelland GH. Conséquences négatives de la dichotomisation de variables prédictives continues. Journal of Marketing Research 2003; 40: 366–371.

[4] Harrell Jr FE. Problèmes causés par la catégorisation des variables continues. http://biostat.mc.vanderbilt.edu/twiki/bin/view/Main/CatContinuous, 2004. Consulté le 6.9.2004

[5] Kotsiantis, S.; Kanellopoulos, D. "Techniques de discrétisation: une enquête récente". GESTS International Transactions on Computer Science and Engineering 32 (1): 47–58.

Michael
la source
2
Les discrétiser par rapport à faire quoi d'autre? Si l'alternative est considérée comme traitant la relation entre le prédicteur et la réponse comme linéaire, il n'est pas surprenant que la discrétisation puisse parfois donner un meilleur ajustement. Voyez ici .
Scortchi - Réintégrer Monica
Cela peut être lié à différents critères pour ce qui est «mieux».
Glen_b -Reinstate Monica

Réponses:

8

Le but des modèles statistiques est de modéliser (approximativement) une réalité sous-jacente inconnue. Lorsque vous discrétisez quelque chose qui est naturellement continu, vous dites que toutes les réponses pour une plage de variables prédictives sont exactement les mêmes, puis il y a un saut soudain pour l'intervalle suivant. Croyez-vous vraiment que le monde naturel fonctionne en ayant une grande différence de réponse entre les valeurs x de 9,999 et 10,001 tout en n'ayant aucune différence entre 9,001 et 9,999 (en supposant que l'un des intervalles soit 9-10)? Je ne peux penser à aucun processus naturel que je considérerais comme plausible de cette façon.

Maintenant, il existe de nombreux processus naturels qui agissent de manière non linéaire, le changement de 8 à 9 dans le prédicteur peut faire un changement très différent dans la réponse qu'un changement de 10 à 11. Et donc un prédicteur discrétisé peut mieux s'adapter qu'un relation linéaire, mais c'est parce qu'il est permis plus de degrés de liberté. Mais, il existe d'autres façons d'autoriser des degrés de liberté supplémentaires, tels que les polynômes ou les splines, et ces options nous permettent de pénaliser pour obtenir un certain niveau de douceur et maintenir quelque chose qui est une meilleure approximation du processus naturel sous-jacent.

Greg Snow
la source
1

Edit: En raison de la tendance des autres réponses que je vois, un bref avertissement: ma réponse est motivée par une perspective d'apprentissage automatique et non par une modélisation statistique.

  • Certains modèles, tels que Naive Bayes, ne fonctionnent pas avec des fonctionnalités continues. La discrétisation des fonctionnalités peut aider à les utiliser (beaucoup) mieux. Généralement, les modèles qui ne s'appuient pas sur le caractère "numérique" de la caractéristique (on pense aux arbres de décision) ne sont pas trop impactés tant que la discrétisation n'est pas trop brutale. Cependant, certains autres modèles seront largement moins performants si la discrétisation est trop importante. Par exemple, les GLM ne tireront absolument aucun avantage du processus.

  • Dans certains cas, lorsque la mémoire / le temps de traitement deviennent des facteurs limitants, la discrétisation des fonctionnalités permet d'agréger un ensemble de données, en réduisant sa taille et sa consommation de temps de mémoire / de calcul.

Donc, l'essentiel est que si vous n'êtes pas limité en termes de calcul et si votre modèle ne nécessite pas absolument de fonctionnalités discrètes, ne lancez pas la discrétisation des fonctionnalités. Sinon, considérez-le par tous les moyens.

Youloush
la source
6
Une méthode qui n'utilise pas la nature numérique de la variable doit être évitée de toute façon.
Frank Harrell
1
C'est tout à fait faux. Les arbres de décision, les Forêts Aléatoires, les DT à Gradient Boosted sont tous d'excellents algorithmes et ne tiennent pas compte de la nature numérique des variables, sauf pour leur ordre. Naive Bayes peut souvent être un outil plus que suffisant pour les tâches de classification de base.
Youloush
7
Il y a plusieurs malentendus. Vous supposez d'abord que la discrétisation utilise au moins la nature ordinale des prédicteurs continus; ce ne est pas. Ensuite, vous confondez le pré-binning (un désastre) avec le binning lors de l'algorithme prédictif (un petit désastre). Vous supposez que la classification conduit à des décisions optimales par opposition à la prédiction. Vous supposez que la catégorisation des intrants est la voie à suivre, par opposition à la catégorisation des extrants (risque prévu, puis appliquez la fonction de perte pour obtenir une décision optimale). Enfin, vous impliquez qu'il est OK de rendre discontinues de véritables relations fluides.
Frank Harrell
3
Étant donné que l'erreur de prédiction est une règle de notation de précision incorrecte, cette déclaration en dit long sur le ML. Et je ne connais pas beaucoup de statisticiens qui recherchent vraiment une réalité sous-jacente. Nous nous contentons de développer diverses approximations ou positions pour la réalité, ainsi que de laisser les données parler d'elles-mêmes.
Frank Harrell
1
Les relations PS Smooth existent comme une vérité sous-jacente dans presque tous les ensembles de données ne contenant pas le temps comme seul prédicteur. De toute évidence, les points de données sont discrets. Cela n'a absolument rien à voir avec le choix d'une approche de modélisation fluide ou non.
Frank Harrell