Je ne suis pas un expert de la forêt aléatoire, mais je comprends clairement que le problème clé avec la forêt aléatoire est la génération d'arbres (aléatoire). Pouvez-vous m'expliquer comment les arbres sont générés? (c.-à-d. quelle est la distribution utilisée pour la génération d'arbres?)
Merci d'avance !
la source
L'idée principale est la procédure d'ensachage, sans faire d'arbres au hasard. En détail, chaque arbre est construit sur un échantillon d'objets dessinés avec remplacement de l'ensemble d'origine; ainsi chaque arbre a des objets qu'il n'a pas vus, ce qui rend l'ensemble plus hétérogène et donc plus généralisable.
De plus, les arbres sont affaiblis de telle manière que sur chaque segment, seuls M (ou
mtry
) attributs sélectionnés au hasard sont pris en compte; M est généralement une racine carrée du nombre d'attributs dans l'ensemble. Cela garantit que les arbres sont moins surajustés, car ils ne sont pas élagués. Vous pouvez trouver plus de détails ici .D'autre part, il existe une variante de RF appelée Extreme Random Forest, dans laquelle les arbres sont fabriqués de manière aléatoire (il n'y a pas d'optimisation des splits) - consultez, je pense cette référence .
la source