Il est connu que lors de la construction d'un arbre de décision, nous divisons la variable d'entrée de manière exhaustive et trouvons la «meilleure» répartition par approche de test statistique ou approche par fonction d'impureté.
Ma question est quand nous utilisons une variable continue comme variable d'entrée (seulement quelques valeurs dupliquées), le nombre de divisions possibles pourrait être très grand, pour trouver la meilleure division prendra du temps. Comment le data scientist s'en occuperait-il?
J'ai lu certains documents que les gens feraient un regroupement des niveaux d'entrée pour limiter les divisions possibles. ( exemple ). Cependant, ils n'expliquent pas comment cela se fait. Sur quoi nous basons-nous pour regrouper une variable univariée? Existe-t-il des ressources pour plus de détails ou n'importe qui peut expliquer en détail?
Merci!
Réponses:
La méthode courante consiste à vérifier uniquement certains casiers comme point / seuil de division. Je pense que c'est à cela que fait référence l'auteur de la présentation que vous avez publiée. Disons que vous avez une variable aléatoire d'entrée continue avec les 10 échantillonsX
Vous ne contrôlez probablement pas chaque valeur de parmi les 10 valeurs observées comme point de partage. Au lieu de cela, par exemple, vous calculez simplement vérifier le quantile 20%, 40%, 60%, 80% de vos données. Vous commandez donc vos donnéesX
et "regrouper" vos données dans des bacs
Ainsi, vous n'auriez qu'à vérifier -1,2,5,4,5 et 8 comme point de partage possible (vous interpolez linéairement entre les bacs)
L' article suivant compare trois règles sur la façon de choisir les points de partage à tester. Je pense que c'est ce que vous recherchez.
@article {chickeringefficient, title = {Détermination efficace des points de partage dynamiques dans un arbre de décision}, auteur = {Chickering, David Maxwell et Meek, Christopher et Rounthwaite, Robert}}
la source