Breiman dit que les arbres sont cultivés sans élagage. Pourquoi? Je veux dire qu'il doit y avoir une raison solide pour que les arbres de la forêt aléatoire ne soient pas élagués. D'un autre côté, il est considéré comme très important d'élaguer un seul arbre de décision pour éviter un ajustement excessif. Y a-t-il de la littérature disponible à lire pour cette raison? Bien sûr, les arbres peuvent ne pas être corrélés mais il y aura toujours une possibilité de sur-ajustement.
machine-learning
Z Khan
la source
la source
Réponses:
En gros, une partie du sur-ajustement potentiel qui pourrait se produire dans un seul arbre (ce qui est une raison pour laquelle vous effectuez l'élagage en général) est atténuée par deux choses dans une forêt aléatoire:
Edit: basé sur le commentaire de OP ci-dessous:
Il y a certainement encore un potentiel de sur-ajustement. En ce qui concerne les articles, vous pouvez lire sur la motivation du «bagging» par Breiman et du «bootstrapping» en général par Efron et Tibshirani. En ce qui concerne 2., Brieman a dérivé une limite lâche sur l'erreur de généralisation qui est liée à la force de l'arbre et à l'anti-corrélation des classificateurs individuels. Personne n'utilise la limite (le plus probable) mais il est destiné à donner une intuition sur ce qui aide à réduire les erreurs de généralisation dans les méthodes d'ensemble. C'est dans le document Random Forests lui-même. Mon message était de vous pousser dans la bonne direction en fonction de ces lectures et de mon expérience / déductions.
la source