Arbres de décision: mise à l'échelle variable (fonctionnalité) et normalisation variable (fonctionnalité) (réglage) requises dans quelles implémentations?

10

Dans de nombreux algorithmes d'apprentissage automatique, la mise à l'échelle des fonctionnalités (aka mise à l'échelle variable, normalisation) est une étape de pré-traitement courante Wikipedia - Mise à l'échelle des fonctionnalités - cette question était proche Question # 41704 - Comment et pourquoi la normalisation et la mise à l'échelle des fonctionnalités fonctionnent-elles?

J'ai deux questions concernant spécifiquement les arbres de décision:

  1. Existe-t-il des implémentations d'arbre de décision qui nécessiteraient une mise à l'échelle des fonctionnalités? J'ai l'impression que la plupart des critères de fractionnement des algorithmes sont indifférents à l'échelle.
  2. Considérez ces variables: (1) Unités, (2) Heures, (3) Unités par heure - est-il préférable de laisser ces trois variables "telles quelles" lorsqu'elles sont introduites dans un arbre de décision ou rencontrons-nous un certain type de conflit puisque la variable "normalisée" (3) est liée à (1) et (2)? Autrement dit, voulez-vous attaquer cette situation en lançant les trois variables dans le mélange, ou choisissez-vous généralement une combinaison des trois ou utilisez-vous simplement la fonction "normalisé / normalisé" (3)?
JasonAizkalns
la source

Réponses:

6

Pour 1, les arbres de décision en général ne nécessitent généralement pas de mise à l'échelle. Cependant, cela aide à la visualisation / manipulation des données et peut être utile si vous avez l'intention de comparer les performances avec d'autres données ou d'autres méthodes comme SVM.

Pour 2, c'est une question de réglage. Les unités / heure peuvent être considérées comme un type d'interaction variable et peuvent avoir un pouvoir prédictif différent de chacun. Cela dépend vraiment de vos données. J'essaierais avec et sans pour voir s'il y a une différence.

wwwslinger
la source