Arbre de renforcement dégradé vs forêt aléatoire

110

Comme l’a proposé Friedman, l’amélioration des arbres en dégradé utilise des arbres de décision comme apprenants de base. Je me demande si nous devrions rendre l'arbre de décision de base aussi complexe que possible (complètement développé) ou plus simple? Y a-t-il une explication au choix?

Random Forest est une autre méthode d'ensemble utilisant des arbres de décision comme apprenants de base. D'après ma compréhension, nous utilisons généralement les arbres de décision presque complètement développés à chaque itération. Ai-je raison?

FihopZz
la source
1
Vous pouvez trouver une autre très bonne référence pour les arbres boostés ici: xgboost.readthedocs.io/en/latest/model.html
Naghmeh
@Naghmeh - Lien mort; semble s'être déplacé vers xgboost.readthedocs.io/fr/latest/tutorials/model.html
mlibby le

Réponses:

150

erreur = biais + variance

  • Le renforcement est basé sur des apprenants faibles (biais élevé, faible variance). En ce qui concerne les arbres de décision, les élèves faibles sont des arbres peu profonds, parfois même aussi petits que des souches décisionnelles (arbres à deux feuilles). Le boosting réduit les erreurs principalement en réduisant les biais (et aussi dans une certaine mesure la variance, en agrégeant les résultats de nombreux modèles).
  • D'autre part, Random Forest utilise, comme vous l'avez dit , des arbres de décision pleinement développés (faible biais, variance élevée). Il aborde la tâche de réduction des erreurs dans le sens opposé: en réduisant la variance. Les arbres sont décorrélés afin de maximiser la diminution de la variance, mais l'algorithme ne peut pas réduire le biais (qui est légèrement supérieur au biais d'un arbre individuel dans la forêt). D'où la nécessité de disposer de gros arbres non élagués, de sorte que le biais soit au départ aussi faible que possible.

Veuillez noter que contrairement au Boosting (qui est séquentiel), RF fait pousser des arbres en parallèle . Le terme iterativeque vous avez utilisé est donc inapproprié.

Antoine
la source
1
"Les arbres sont décorrélés pour maximiser la diminution de la variance, mais l'algorithme ne peut pas réduire le biais (qui est légèrement supérieur au biais d'un arbre individuel dans la forêt)" - la partie relative à "légèrement plus élevée que le biais d'un individu arbre dans la forêt "semble incorrect. Voir web.stanford.edu/~hastie/Papers/ESLII.pdf section 15.4.2: "Comme dans l'ensachage, le biais d'une forêt aléatoire est le même que celui de n'importe quel arbre échantillonné." Peut-être voulez-vous dire "légèrement plus élevé que le biais d'un seul arbre entièrement développé en accord avec les données d'origine"?
Adrian
1
@gung Je pense qu'il y a une question clé sans réponse dans OP, qui est: pourquoi ne pas utiliser un arbre complètement développé à la 1ère étape de la GBM? Pourquoi utiliser une séquence d'apprenant faible vaut mieux qu'un seul arbre complètement développé? Je suis curieux à ce sujet
ftxx le
56

Cette question est abordée dans ce très bel article. S'il vous plaît jeter un oeil à elle et les références qui y figurent. http://fastml.com/what-is-better-gradient-boosted-trees-or-randomom-forest/

Notez dans l'article que le site parle de calibration et de liens vers un autre (gentil) billet de blog à ce sujet. Néanmoins, je trouve que le document Obtention de probabilités calibrées à partir de boosting vous donne une meilleure compréhension de ce qu'est la calibration dans le contexte de classificateurs boostés et quelles sont les méthodes standard pour le réaliser.

Et enfin, un aspect manque (un peu plus théorique). RF et GBM sont des méthodes d'ensemble, ce qui signifie que vous construisez un classificateur à partir d'un grand nombre de classificateurs plus petits. Maintenant, la différence fondamentale réside dans la méthode utilisée:

  1. RF utilise des arbres de décision, qui sont très sujets à la suralimentation. Afin d’obtenir une plus grande précision, RF décide de créer un grand nombre d’entre eux en fonction de la mise en sac . L'idée de base est de ré-échantillonner les données à plusieurs reprises et former pour chaque échantillon un nouveau classificateur. Différents classificateurs sur-ajustent les données d'une manière différente et, par un vote, ces différences sont moyennées.
  2. La GBM est une méthode de renforcement qui repose sur des classificateurs faibles . L'idée est d'ajouter un classificateur à la fois, de sorte que le prochain classificateur soit formé pour améliorer l'ensemble déjà formé. Notez que pour chaque itération RF, le classifieur est formé indépendamment des autres.
jpmuc
la source
3
Serait-ce une conclusion juste de votre réponse que RF excède plus que GBM?
8forty
4
@ 8forty Je ne tirerais pas cette conclusion - alors qu’un seul arbre en RF surchargera plus d’un seul arbre en GBM (car ils sont beaucoup plus petits), en RF, ces sur-ajustements feront l’objet d’une moyenne lorsqu’on emploie beaucoup d’arbres, tandis que dans GBM, plus vous ajoutez d'arbres, plus le risque de surajustement est élevé. En bref, comme N (nombre d'arbres utilisés) va à l' infini, je pense RF à surajuster beaucoup moins que GBM
Ant