Puis-je combiner de nombreux arbres améliorant le gradient en utilisant la technique d'ensachage

8

Basé sur Gradient Boosting Tree vs Random Forest . GBDT et RF utilisant une stratégie différente pour lutter contre le biais et la variance.

Ma question est la suivante: puis-je rééchantillonner l'ensemble de données (avec remplacement) pour former plusieurs GBDT et combiner leurs prédictions comme résultat final?

C'est équivalent à construire une forêt aléatoire en utilisant GBDT comme apprenant de base

L'idée est que, le GBDT peut surdimensionner un ensemble de données (semblable à un arbre de décision à croissance complète, variance élevée à faible biais). J'espère que l'utilisation de la technique d'ensachage peut également réduire ce problème et souhaite obtenir de meilleures performances.

Toute suggestion?

MC LIN
la source
Bien sûr que vous pouvez, mais je suppose que vous feriez mieux pour le même effort en exécutant simplement avec un taux d'apprentissage plus petit.
Matthew Drury

Réponses:

4

Oui, vous pouvez. L'ensachage en tant que technique ne repose pas sur un seul arbre de classification ou de régression comme apprenant de base; vous pouvez le faire avec n'importe quoi, bien que de nombreux apprenants de base (par exemple, la régression linéaire) aient moins de valeur que d'autres. L' article d' agrégation de bootstrap sur Wikipedia contient un exemple d'ensachage de lisseurs LOESS sur des données d'ozone.

Si vous le faisiez, cependant, vous ne voudriez certainement pas utiliser les mêmes paramètres qu'un GBM unique entièrement réglé. Une grande partie du point de réglage d'un GBM est d'empêcher le sur-ajustement; l'ensachage réduit le sur-ajustement grâce à un mécanisme différent, donc si votre GBM réglé ne s'adapte pas beaucoup, l'ensachage n'aidera probablement pas beaucoup non plus - et, puisque vous aurez probablement besoin de centaines d'arbres pour emballer efficacement, votre temps d'exécution augmentera de un facteur de plusieurs centaines également. Alors maintenant, vous avez deux problèmes - comment régler votre GBM étant donné qu'il est intégré dans une forêt aléatoire (bien qu'il ne soit probablement pas si important de bien faire les choses, étant donné qu'il est intégré dans une forêt aléatoire) et le problème d'exécution.

Après avoir écrit tout cela, il est vrai que la pensée de type ensachage peut être intégrée de manière rentable au GBM, bien que d'une manière différente. H20, par exemple, offre la possibilité de faire développer chaque arbre de la séquence d'arbre GBM sur un échantillon aléatoire des données d'apprentissage. Cet échantillon est effectué sans remplacement, car l'échantillonnage avec remplacement est censé amener l'arbre résultant à s'adapter aux parties de l'échantillon qui ont été répétées. Cette approche a été explicitement motivée par la procédure «d'ensachage adaptatif» de Breiman, voir l'article de Friedman's Stochastic Gradient Boosting 1999 pour plus de détails.

jbowman
la source