Journal2( N+ 1
Le nombre d'entités sélectionnées au hasard peut influencer l'erreur de généralisation de deux manières: la sélection de nombreuses entités augmente la force des arbres individuels tandis que la réduction du nombre d'entités conduit à une corrélation plus faible entre les arbres, augmentant la force de la forêt dans son ensemble.
Ce qui est intéressant, c'est que les auteurs de Random Forests (pdf) trouvent une différence empirique entre la classification et la régression:
Une différence intéressante entre la régression et la classification est que la corrélation augmente assez lentement à mesure que le nombre de caractéristiques utilisées augmente.
N/ 3N--√
N--√JournalN
La plage intermédiaire est généralement grande. Dans cette plage, à mesure que le nombre de caractéristiques augmente, la corrélation augmente, mais PE * (arbre) compense en diminuant.
(PE * étant l'erreur de généralisation)
Comme ils le disent dans Elements of Statistical Learning:
Dans la pratique, les meilleures valeurs pour ces paramètres dépendent du problème et doivent être traitées comme des paramètres de réglage.
Une chose dont votre problème peut dépendre est le nombre de variables catégorielles. Si vous avez de nombreuses variables catégorielles codées en tant que variables fictives, il est généralement judicieux d'augmenter le paramètre. Encore une fois, du papier Random Forests:
Lorsque de nombreuses variables sont catégoriques, l'utilisation d'un faible [nombre de caractéristiques] entraîne une faible corrélation, mais également une faible résistance. [Le nombre de fonctionnalités] doit être augmenté à environ deux à trois foisi n t ( l o g2M+ 1 ) pour obtenir suffisamment de force pour fournir une bonne précision de l'ensemble de test.