Merci pour une très bonne question! Je vais essayer de donner mon intuition derrière cela.
Pour comprendre cela, rappelez-vous les "ingrédients" du classifieur de forêt aléatoire (il y a quelques modifications, mais c'est le pipeline général):
- À chaque étape de la construction de chaque arbre, nous trouvons la meilleure répartition des données.
- Lors de la construction d’un arbre, nous n’utilisons pas l’ensemble du jeu de données, mais un échantillon bootstrap
- Nous agrégons les résultats individuels des arbres en faisant la moyenne (2 et 3 signifient en réalité une procédure d'ensachage plus générale ).
Supposons le premier point. Il n'est pas toujours possible de trouver le meilleur partage. Par exemple, dans le jeu de données suivant, chaque scission donnera exactement un objet mal classé.
Et je pense que ce point peut être source de confusion: en effet, le comportement de la division individuelle est similaire au comportement du classificateur Naive Bayes: si les variables sont dépendantes - il n'y a pas de meilleure séparation pour les arbres de décision et le classificateur Naive Bayes échoue également (rappelons simplement que les variables indépendantes sont la principale hypothèse que nous formulons dans le classificateur Naive Bayes; toutes les autres hypothèses proviennent du modèle probabiliste que nous avons choisi).
Mais voici le grand avantage des arbres de décision: nous prenons toute scission et continuons encore. Et pour les divisions suivantes, nous trouverons une séparation parfaite (en rouge).
Et comme nous n’avons aucun modèle probabiliste, mais juste une division binaire, nous n’avons pas besoin de faire d’hypothèse du tout.
C'était à propos de l'arbre de décision, mais cela s'applique également à Random Forest. La différence est que pour Random Forest, nous utilisons Bootstrap Aggregation. Il n'y a pas de modèle en dessous, et la seule hypothèse sur laquelle il s'appuie est que l' échantillonnage est représentatif . Mais ceci est généralement une hypothèse commune. Par exemple, si une classe est composée de deux composants et dans notre jeu de données, un composant est représenté par 100 échantillons et un autre composant par un échantillon - la plupart des arbres de décision individuels ne verront que le premier composant et Random Forest classera le second de manière erronée. .
J'espère que cela vous aidera à mieux comprendre.