Si nous considérons un arbre de décision complet (c'est-à-dire un arbre de décision non élagué), il présente une variance élevée et un faible biais.
L'ensachage et les forêts aléatoires utilisent ces modèles à variance élevée et les agrègent afin de réduire la variance et ainsi améliorer la précision des prévisions. L'ensachage et les forêts aléatoires utilisent l'échantillonnage Bootstrap, et comme décrit dans «Éléments d'apprentissage statistique», cela augmente le biais dans l'arbre unique.
De plus, comme la méthode Random Forest limite les variables autorisées à se diviser dans chaque nœud, le biais pour un seul arbre forestier aléatoire est encore plus augmenté.
Ainsi, la précision de la prévision n'est augmentée que si l'augmentation du biais des arbres isolés dans l'ensachage et les forêts aléatoires ne «surligne» pas la réduction de la variance.
Cela m'amène aux deux questions suivantes: 1) Je sais qu'avec l'échantillonnage bootstrap, nous aurons (presque toujours) certaines des mêmes observations dans l'échantillon bootstrap. Mais pourquoi cela conduit-il à une augmentation du biais des arbres individuels dans les forêts ensachées / aléatoires? 2) En outre, pourquoi la limite des variables disponibles à répartir dans chaque division conduit-elle à un biais plus élevé dans les arbres individuels dans les forêts aléatoires?