Actuellement j'utilise RF toolbox sur MATLAB pour un problème de classification binaire
Ensemble de données: 50000 échantillons et plus de 250 fonctionnalités
Alors, quel devrait être le nombre d'arbres et la fonction sélectionnée au hasard sur chaque division pour faire pousser les arbres? tout autre paramètre peut-il affecter considérablement les résultats?
Plus les arbres sont gros, mieux c'est. Vous ne pouvez presque pas dépasser avec ce paramètre, mais bien sûr, la limite supérieure dépend du temps de calcul que vous souhaitez passer sur RF.
La bonne idée est de faire d'abord une longue forêt et de voir ensuite (j'espère qu'elle est disponible dans l'implémentation MATLAB) quand la précision OOB converge.
Nombre d'attributs essayés par défaut est la racine carrée du nombre entier d'attributs, mais généralement la forêt n'est pas très sensible à la valeur de ce paramètre - en fait, elle est rarement optimisée, en particulier parce que l'aspect stochastique des RF peut introduire des variations plus importantes.
la source
Nombre d'arbres plus gros, mieux c'est: d'accord.
Le nombre d'attributs essayés dépendra. Si vous en avez déjà a priori sur la façon dont les informations se propagent ou non parmi les fonctionnalités. Si les informations sont partagées par de nombreuses fonctionnalités, de meilleurs résultats aboutiraient à une valeur plus petite de ce paramètre. Si, en revanche, si seules quelques fonctionnalités transportent les informations, vous devez utiliser des valeurs plus grandes. En d'autres termes, avec de nombreuses variables pertinentes: des valeurs plus petites sont meilleures et avec de nombreuses variables non pertinentes: des valeurs plus grandes sont meilleures.
la source