Comme l’a proposé Friedman, l’amélioration des arbres en dégradé utilise des arbres de décision comme apprenants de base. Je me demande si nous devrions rendre l'arbre de décision de base aussi complexe que possible (complètement développé) ou plus simple? Y a-t-il une explication au choix?
Random Forest est une autre méthode d'ensemble utilisant des arbres de décision comme apprenants de base. D'après ma compréhension, nous utilisons généralement les arbres de décision presque complètement développés à chaque itération. Ai-je raison?
Réponses:
Veuillez noter que contrairement au Boosting (qui est séquentiel), RF fait pousser des arbres en parallèle . Le terme
iterative
que vous avez utilisé est donc inapproprié.la source
Cette question est abordée dans ce très bel article. S'il vous plaît jeter un oeil à elle et les références qui y figurent. http://fastml.com/what-is-better-gradient-boosted-trees-or-randomom-forest/
Notez dans l'article que le site parle de calibration et de liens vers un autre (gentil) billet de blog à ce sujet. Néanmoins, je trouve que le document Obtention de probabilités calibrées à partir de boosting vous donne une meilleure compréhension de ce qu'est la calibration dans le contexte de classificateurs boostés et quelles sont les méthodes standard pour le réaliser.
Et enfin, un aspect manque (un peu plus théorique). RF et GBM sont des méthodes d'ensemble, ce qui signifie que vous construisez un classificateur à partir d'un grand nombre de classificateurs plus petits. Maintenant, la différence fondamentale réside dans la méthode utilisée:
la source