Les méthodes d'ensemble (telles que les forêts aléatoires) nécessitent un élément de variation dans les ensembles de données sur lesquels les classificateurs de base individuels sont développés (sinon les forêts aléatoires se retrouveraient avec une forêt d'arbres trop similaires). Comme les arbres de décision sont très sensibles aux observations dans l'ensemble d'apprentissage, la variation des observations (à l'aide du bootstrap) était, je suppose, une approche naturelle pour obtenir la diversité requise. L'alternative évidente consiste à varier les fonctionnalités utilisées, par exemple former chaque arbre sur un sous-ensemble des fonctionnalités originales. L'utilisation des échantillons bootstrap nous permet également d'estimer le taux d'erreur hors du sac (OOB) et l'importance variable.
2 est essentiellement une autre façon d'injecter le hasard dans la forêt. Cela a également un impact sur la réduction de la corrélation entre les arbres (en utilisant une faible valeur minimale), le compromis étant (potentiellement) aggravant le pouvoir prédictif. L'utilisation d'une valeur trop élevée de gibier rendra les arbres de plus en plus similaires les uns aux autres (et à l'extrême vous vous retrouverez avec l'ensachage)
Je crois que la raison de ne pas tailler est plus due au fait que ce n'est pas nécessaire qu'autre chose. Avec un seul arbre de décision, vous le taillez normalement car il est très sensible au sur-ajustement. Cependant, en utilisant les échantillons bootstrap et en cultivant de nombreux arbres, les forêts aléatoires peuvent produire des arbres qui sont forts individuellement, mais pas particulièrement corrélés les uns aux autres. Fondamentalement, les arbres individuels sont surajustés mais à condition que leurs erreurs ne soient pas corrélées, la forêt doit être raisonnablement précise.
La raison pour laquelle cela fonctionne bien est similaire au théorème du jury de Condorcet (et à la logique derrière des méthodes telles que le boost). Fondamentalement, vous avez beaucoup d'apprenants faibles qui n'ont besoin que de performances légèrement meilleures que les suppositions aléatoires. Si cela est vrai, vous pouvez continuer à ajouter des apprenants faibles et, à la limite, vous obtiendrez des prédictions parfaites de votre ensemble. Il est clair que cela est limité en raison des erreurs de corrélation entre les apprenants, ce qui empêche l'amélioration des performances de l'ensemble.