Quelle est la meilleure fonction de coût pour un arbre forestier aléatoire: indice de Gini ou entropie?

12

Quelle est la meilleure fonction de coût pour un arbre forestier aléatoire: indice de Gini ou entropie?

J'essaie d'implémenter une forêt aléatoire à Clojure.

Vivek
la source

Réponses:

9

Comme je l'ai trouvé dans Introduction to Data Mining par Tan et. Al:

Des études ont montré que le choix de la mesure d'impureté a peu d'effet sur les performances des algorithmes d'induction de l'arbre de décision. En effet, de nombreuses mesures d'impuretés sont assez cohérentes entre elles [...]. En effet, la stratégie utilisée pour tailler l'arbre a un impact plus important sur l'arbre final que le choix de la mesure d'impureté.

Par conséquent, vous pouvez choisir d'utiliser un index Gini comme CART ou Entropy comme C4.5.

J'utiliserais Entropy, plus spécifiquement le rapport de gain de C4.5 parce que vous pouvez facilement suivre le livre bien écrit de Quinlan: C4.5 Programs for Machine Learning.

Simone
la source
3
Petite remarque - l'entropie utilise des journaux, ce qui peut être un problème de temps de calcul.
8
Cette remarque concerne les arbres de décision purs, mais pas les forêts aléatoires. Vous ne taillez généralement pas un arbre dans une forêt aléatoire car vous n'essayez pas de construire un meilleur arbre. Il semble donc trompeur de parler de ce qui est plus important: la taille ou la mesure de l'impureté. Le but est de trouver le meilleur arbre à utiliser avec une forêt aléatoire.
Chan-Ho Suh