Il se résume en fait à l'une des techniques "3B": ensachage, boosting ou mélange.
Dans l'ensachage, vous entraînez de nombreux classificateurs sur différents sous-ensembles d'objets et combinez les réponses en moyenne pour la régression et votez pour la classification (il existe d'autres options pour les situations plus complexes, mais je vais les ignorer). La proportion / variance des votes peut être interprétée comme une approximation d'erreur puisque les classificateurs individuels sont généralement considérés comme indépendants. RF est en fait un ensemble d'ensachage.
Le boosting est une famille de méthodes plus large, mais leur principal objectif est que vous construisiez le classificateur suivant sur les résidus du premier, de cette façon (en théorie) augmentant progressivement la précision en mettant en évidence des interactions de plus en plus subtiles. Les prédictions sont donc généralement combinées en les additionnant, quelque chose comme le calcul d'une valeur d'une fonction en x en additionnant les valeurs des éléments de sa série de Taylor pour x.
Les versions les plus populaires sont (Stochastic) Gradient Boosting (avec de belles bases mathématiques) et AdaBoost (bien connu, en fait un cas spécifique de GB). D'un point de vue holistique, l'arbre de décision stimule les classificateurs pivot triviaux.
Le mélange est une idée d'imbrication de classificateurs, c'est-à-dire d'exécuter un classificateur sur un système d'information fait de prédictions d'autres classificateurs. Il s'agit donc d'une méthode très variable et certainement pas d'un algorithme défini; peut nécessiter beaucoup d'objets (dans la plupart des cas, le classificateur "blender" doit être formé sur un ensemble d'objets qui n'ont pas été utilisés pour construire les classificateurs partiels afin d'éviter une surcharge embarrassante).
Les prédictions des classificateurs partiels sont évidemment combinées en les fusionnant dans un système d'information qui est prédit par le mélangeur.