En quoi la forêt aléatoire extrême diffère-t-elle de la forêt aléatoire?

18

La mise en œuvre des ER est-elle plus efficace (un peu Extreme Gradient Boostingcomme le renforcement du gradient) - la différence est-elle importante du point de vue pratique? Il existe un package R qui les implémente. Est-ce un nouvel algorithme qui surmonte l'implémentation "générique" (package RandomForest de R) non seulement en termes d'efficacité ou également dans d'autres domaines?

Forêt extrême aléatoire http://link.springer.com/article/10.1007%2Fs10994-006-6226-1

Qbik
la source

Réponses:

20

C'est assez simple - RF optimise les divisions sur les arbres (c'est-à-dire sélectionnez celles qui donnent le meilleur gain d'information par rapport à la décision) et ERF les fait au hasard. Maintenant,

  • coûts d'optimisation (pas beaucoup, mais quand même), donc ERF est généralement plus rapide.
  • l'optimisation peut contribuer à la corrélation des arbres dans l'ensemble ou le sur-ajustement global, donc les ERF sont probablement plus robustes, surtout si le signal est faible.

En allant encore plus loin dans cette direction, vous pouvez gagner en vitesse en égalisant les divisions à chaque niveau d'arbre, convertissant ainsi les arbres en fougères , ce qui est également assez intéressant; il y a ma mise en œuvre R d'un tel individu.


la source
Ce lien est rompu, utilisez CVLAB: Ferns
smci
Je suppose que les arbres créés par ERF sont beaucoup plus grands que ceux de RF, car RF utilise l'optimisation qui comprime les connaissances du jeu de données sur des arbres plus petits
Qbik