Pourquoi la taille n'est-elle pas nécessaire pour les arbres forestiers aléatoires?

20

Breiman dit que les arbres sont cultivés sans élagage. Pourquoi? Je veux dire qu'il doit y avoir une raison solide pour que les arbres de la forêt aléatoire ne soient pas élagués. D'un autre côté, il est considéré comme très important d'élaguer un seul arbre de décision pour éviter un ajustement excessif. Y a-t-il de la littérature disponible à lire pour cette raison? Bien sûr, les arbres peuvent ne pas être corrélés mais il y aura toujours une possibilité de sur-ajustement.

Z Khan
la source
Vous devez vraiment en dire plus sur le contexte ici. @ChrisA. a fait une tentative notable, mais il est difficile de savoir si on répond vraiment à votre question, car il est difficile d'en savoir beaucoup sur votre dilemme.
gung - Rétablir Monica
2
Que dire de plus? La question est très claire.
Seanosapien

Réponses:

20

En gros, une partie du sur-ajustement potentiel qui pourrait se produire dans un seul arbre (ce qui est une raison pour laquelle vous effectuez l'élagage en général) est atténuée par deux choses dans une forêt aléatoire:

  1. Le fait que les échantillons utilisés pour former les arbres individuels sont «bootstrapés».
  2. Le fait que vous ayez une multitude d'arbres aléatoires utilisant des caractéristiques aléatoires et que les arbres individuels sont forts mais pas si corrélés les uns avec les autres.

Edit: basé sur le commentaire de OP ci-dessous:

Il y a certainement encore un potentiel de sur-ajustement. En ce qui concerne les articles, vous pouvez lire sur la motivation du «bagging» par Breiman et du «bootstrapping» en général par Efron et Tibshirani. En ce qui concerne 2., Brieman a dérivé une limite lâche sur l'erreur de généralisation qui est liée à la force de l'arbre et à l'anti-corrélation des classificateurs individuels. Personne n'utilise la limite (le plus probable) mais il est destiné à donner une intuition sur ce qui aide à réduire les erreurs de généralisation dans les méthodes d'ensemble. C'est dans le document Random Forests lui-même. Mon message était de vous pousser dans la bonne direction en fonction de ces lectures et de mon expérience / déductions.

  • Breiman, L., Bagging Predictors, Machine Learning, 24 (2), pp.123-140, 1996.
  • Efron, B .; Tibshirani, R. (1993). Une introduction au bootstrap. Boca Raton, FL
  • Breiman, Leo (2001). "Forêts aléatoires". Apprentissage automatique 45 (1): 5–32.
Chris A.
la source
Mais il peut toujours y avoir une possibilité de sur-ajustement. Pouvez-vous citer un article à lire pour cela?
Z Khan
@Z Khan Êtes-vous peut-être aussi ce Z Khan ? Dans l'affirmative, veuillez nous en informer afin que nous puissions fusionner vos comptes.
whuber
3
@ZKhan Le problème du surapprentissage dans les RF est traité dans Hastie et al, (2009) Elements of Statistical Learning, 2nd Edition . Un PDF gratuit est disponible sur le site Web du livre. Consultez le chapitre sur les forêts aléatoires.
Rétablir Monica - G. Simpson