Ma question: Pourquoi la forêt aléatoire considère-t-elle des sous-ensembles aléatoires de fonctionnalités pour la division au niveau du nœud dans chaque arbre plutôt qu'au niveau de l'arbre ?
Contexte: Il s'agit d'une question d'histoire. Tin Kam Ho a publié ce document sur la construction de « forêts de décision » en choisissant au hasard un sous - ensemble de fonctionnalités à utiliser pour la croissance de chaque arbre en 1998. Quelques années plus tard, en 2001, Leo Breiman a publié son séminal Random Forest papier , le sous - ensemble de fonctionnalités est aléatoire sélectionnés à chaque nœud dans chaque arbre, pas à chaque arbre. Alors que Breiman a cité Ho, il n'a pas expliqué spécifiquement le passage de la sélection des caractéristiques aléatoires au niveau de l'arbre au niveau du nœud.
Je me demande ce qui a spécifiquement motivé ce développement. Il semble que la sélection du sous-ensemble d'entités au niveau de l'arbre permettrait toujours la décorrélation souhaitée des arbres.
Ma théorie: je n'ai pas vu cela articulé ailleurs, mais il semble que la méthode du sous-espace aléatoire serait moins efficace pour obtenir des estimations de l'importance des caractéristiques. Pour obtenir des estimations d'importance variable, pour chaque arbre, les caractéristiques sont permutées au hasard une par une, et l'augmentation de la classification erronée ou de l'augmentation de l'erreur pour les observations hors du sac est enregistrée. Les variables pour lesquelles la classification erronée ou l'augmentation d'erreur résultant de cette permutation aléatoire est élevée sont celles qui ont la plus grande importance.
Si nous utilisons la méthode du sous-espace aléatoire, pour chaque arbre, nous ne considérons que des caractéristiques. Il peut falloir plusieurs arbres pour considérer tous les prédicteurs une seule fois. D'un autre côté, si nous considérons un sous-ensemble différent des entités à chaque nœud , nous considérerons chaque entité plus de fois après moins d'arbres, ce qui nous donnera une estimation plus robuste de l'importance de l'entité.p p m i p
Ce que j'ai regardé jusqu'à présent: Jusqu'à présent, j'ai lu les articles de Breiman et Ho, et j'ai effectué une large recherche en ligne pour comparer les méthodes sans trouver de réponse définitive. Notez qu'une question similaire a été posée auparavant. Cette question va un peu plus loin en incluant mes spéculations / travaux vers une solution possible. Je serais intéressé par toutes les réponses, citations pertinentes ou études de simulation comparant les deux approches. Si aucun n'est à venir, je prévois d'exécuter ma propre simulation en comparant les deux méthodes.
Réponses:
Supposons que nous ayons 10 entités f1, f2, ..., f9, f10, puis lorsque nous prenons un sous-ensemble pour supposer f1, f3, f4, f8 d'entités au niveau de l'arbre lui-même, puis nous construisons l'arbre entier en prenant ces 4 entités en considération.
Nous calculons l'entropie, comparons uniquement ces 4 entités à chaque nœud et prenons cette entité qui donne l'entropie maximale. Ce n'est pas très utile car nous limitons notre apprentissage de l'arborescence à ces 4 fonctionnalités uniquement. Contrairement à cela, lorsque nous prenons un sous-ensemble de fonctionnalités disons f1, f8, f9 au premier nœud, nous calculons l'entropie et les comparons entre ces 3 fonctionnalités et choisissons celle qui donne la valeur maximale. Au lieu de développer davantage l'arborescence avec les mêmes fonctionnalités, nous avons choisi un autre sous-ensemble de fonctionnalités disons f4, f7, f2 et effectuons la répartition en fonction de ces fonctionnalités. Supposons que f8 a été sélectionné au premier nœud et f2 a été sélectionné au deuxième nœud. Le modèle est capable d'apprendre la relation entre ces deux qui ne serait pas
De cette façon, le modèle peut apprendre la relation entre les différentes fonctionnalités de manière plus diversifiée. Cette approche aura un certain nombre de fonctionnalités explorées dans une seule arborescence et donc les relations entre elles sont préservées. J'espère que vous l'avez maintenant :)
la source