Comment la forêt aléatoire génère-t-elle la forêt aléatoire

20

Je ne suis pas un expert de la forêt aléatoire, mais je comprends clairement que le problème clé avec la forêt aléatoire est la génération d'arbres (aléatoire). Pouvez-vous m'expliquer comment les arbres sont générés? (c.-à-d. quelle est la distribution utilisée pour la génération d'arbres?)

Merci d'avance !

Robin Girard
la source

Réponses:

16

Les implémentations de RF diffèrent légèrement. Je sais que l' implémentation propriétaire de Salford Systems est censée être meilleure que celle de vanille en R. Une description de l'algorithme est en ESL par Friedman-Hastie-Tibshirani, 2e éd., 3e impression . Un chapitre entier (15e) est consacré aux RF, et je le trouve en fait plus clair que le papier original. L'algorithme de construction d'arbre est détaillé en p.588; pas besoin pour moi de le reproduire ici, puisque le livre est disponible en ligne.

gappy
la source
Merci beaucoup pour votre réponse ! J'ai lu ce livre de la première à la dernière page, mais je pense que c'était l'édition 1 ... Je ne savais pas qu'il était disponible en ligne.
robin girard
19

L'idée principale est la procédure d'ensachage, sans faire d'arbres au hasard. En détail, chaque arbre est construit sur un échantillon d'objets dessinés avec remplacement de l'ensemble d'origine; ainsi chaque arbre a des objets qu'il n'a pas vus, ce qui rend l'ensemble plus hétérogène et donc plus généralisable.

De plus, les arbres sont affaiblis de telle manière que sur chaque segment, seuls M (ou mtry) attributs sélectionnés au hasard sont pris en compte; M est généralement une racine carrée du nombre d'attributs dans l'ensemble. Cela garantit que les arbres sont moins surajustés, car ils ne sont pas élagués. Vous pouvez trouver plus de détails ici .

D'autre part, il existe une variante de RF appelée Extreme Random Forest, dans laquelle les arbres sont fabriqués de manière aléatoire (il n'y a pas d'optimisation des splits) - consultez, je pense cette référence .

Amelio Vazquez-Reina
la source
Désolé, mais je ne comprends pas vraiment votre réponse. Qu'entendez-vous par "En détail, chaque arbre est construit sur un échantillon d'objets dessinés avec remplacement à partir de l'ensemble d'origine" Pouvez-vous donner plus de précision sur l'endroit où je trouve les détails "ici"?
robin girard
1
Voici comment fonctionne l'ensachage; consultez en.wikipedia.org/wiki/Bootstrap_aggregating . Voici un lien (à peine visible dans ce thème, je l'admets) vers la référence RF détaillée.