Ma compréhension est que la forêt aléatoire choisit des variables aléatoires pour construire chaque arbre de décision. Donc, si mtry = ncol / 3, alors chaque variable sera utilisée en moyenne dans 1/3 des arbres. Et 2/3 des arbres ne les utiliseront pas.
Mais que faire si je sais qu'une seule variable est probablement très importante, serait-il bon d'augmenter manuellement la probabilité que cette variable soit choisie dans chaque arbre? Est-il possible avec le package randomForest dans R?
la source
Depuis juin 2015, un nouvel algorithme RF prometteur sur R-CRAN appelé «ranger» a cette fonctionnalité. Il est modifié avec, split.select.weights : "Vecteur numérique avec des poids entre 0 et 1, représentant la probabilité de sélectionner des variables pour le fractionnement."
la source