Pourquoi un arbre ensaché / un arbre forestier aléatoire a-t-il un biais plus élevé qu'un arbre de décision unique?

11

Si nous considérons un arbre de décision complet (c'est-à-dire un arbre de décision non élagué), il présente une variance élevée et un faible biais.

L'ensachage et les forêts aléatoires utilisent ces modèles à variance élevée et les agrègent afin de réduire la variance et ainsi améliorer la précision des prévisions. L'ensachage et les forêts aléatoires utilisent l'échantillonnage Bootstrap, et comme décrit dans «Éléments d'apprentissage statistique», cela augmente le biais dans l'arbre unique.

De plus, comme la méthode Random Forest limite les variables autorisées à se diviser dans chaque nœud, le biais pour un seul arbre forestier aléatoire est encore plus augmenté.

Ainsi, la précision de la prévision n'est augmentée que si l'augmentation du biais des arbres isolés dans l'ensachage et les forêts aléatoires ne «surligne» pas la réduction de la variance.

Cela m'amène aux deux questions suivantes: 1) Je sais qu'avec l'échantillonnage bootstrap, nous aurons (presque toujours) certaines des mêmes observations dans l'échantillon bootstrap. Mais pourquoi cela conduit-il à une augmentation du biais des arbres individuels dans les forêts ensachées / aléatoires? 2) En outre, pourquoi la limite des variables disponibles à répartir dans chaque division conduit-elle à un biais plus élevé dans les arbres individuels dans les forêts aléatoires?

C. Refsgaard
la source

Réponses:

5

J'accepterai la réponse 1) de Kunlun, mais juste pour clore ce dossier, je vais ici donner les conclusions sur les deux questions auxquelles j'ai abouti dans ma thèse (qui ont toutes deux été acceptées par mon directeur de thèse):

1) Plus de données produisent de meilleurs modèles, et comme nous n'utilisons qu'une partie de l'ensemble des données de formation pour former le modèle (bootstrap), un biais plus élevé se produit dans chaque arbre (copie de la réponse de Kunlun)

2) Dans l'algorithme Random Forests, nous limitons le nombre de variables à diviser dans chaque division - c'est-à-dire que nous limitons le nombre de variables pour expliquer nos données avec. Encore une fois, un biais plus élevé se produit dans chaque arbre.

Conclusion: Les deux situations consistent à limiter notre capacité à expliquer la population: d'abord nous limitons le nombre d'observations, puis nous limitons le nombre de variables à découper dans chaque découpage. Les deux limitations entraînent un biais plus élevé dans chaque arbre, mais souvent la réduction de la variance dans le modèle éclipse l'augmentation du biais dans chaque arbre, et donc l'ensachage et les forêts aléatoires ont tendance à produire un meilleur modèle qu'un simple arbre de décision.

C. Refsgaard
la source
-1

Vos questions sont assez simples. 1) Plus de données produisent un meilleur modèle, puisque vous n'utilisez qu'une partie de l'ensemble des données d'entraînement pour former votre modèle (bootstrap), un biais plus élevé est raisonnable. 2) Plus de divisions signifie des arbres plus profonds ou des nœuds plus purs. Cela conduit généralement à une variance élevée et à un biais faible. Si vous limitez la division, une variance plus faible et un biais plus élevé.

Kunlun
la source
4
Je n'achète pas tout à fait l'argument de 1), car chaque échantillon de bootstrap est également probable, et le biais concerne le comportement du modèle moyen. Il semble que ça doit être plus subtil que ça. Je ne pense pas non plus que 2) réponde à la question posée. L'affiche ne signifie pas «fentes limites» comme dans «faire pousser des arbres moins profonds».
Matthew Drury