Quelle est la meilleure fonction de coût pour un arbre forestier aléatoire: indice de Gini ou entropie?
J'essaie d'implémenter une forêt aléatoire à Clojure.
Quelle est la meilleure fonction de coût pour un arbre forestier aléatoire: indice de Gini ou entropie?
J'essaie d'implémenter une forêt aléatoire à Clojure.
Comme je l'ai trouvé dans Introduction to Data Mining par Tan et. Al:
Des études ont montré que le choix de la mesure d'impureté a peu d'effet sur les performances des algorithmes d'induction de l'arbre de décision. En effet, de nombreuses mesures d'impuretés sont assez cohérentes entre elles [...]. En effet, la stratégie utilisée pour tailler l'arbre a un impact plus important sur l'arbre final que le choix de la mesure d'impureté.
Par conséquent, vous pouvez choisir d'utiliser un index Gini comme CART ou Entropy comme C4.5.
J'utiliserais Entropy, plus spécifiquement le rapport de gain de C4.5 parce que vous pouvez facilement suivre le livre bien écrit de Quinlan: C4.5 Programs for Machine Learning.