J'ai des données avec quelques milliers de fonctionnalités et je souhaite effectuer une sélection récursive des fonctionnalités (RFE) pour supprimer celles qui ne sont pas informatives. Je le fais avec caret et RFE. Cependant, j'ai commencé à penser, si je veux obtenir le meilleur ajustement de régression (forêt aléatoire, par exemple), quand dois-je effectuer le réglage des paramètres ( mtry
pour RF)? Autrement dit, si je comprends bien, le caret entraîne les RF à plusieurs reprises sur différents sous-ensembles de fonctionnalités avec un mode fixe. Je suppose que l'optimum mtry
devrait être trouvé une fois la sélection des fonctionnalités terminée, mais la mtry
valeur utilisée par le curseur influencera-t-elle le sous-ensemble de fonctionnalités sélectionné? L'utilisation de caret avec low mtry
est bien sûr plus rapide.
J'espère que quelqu'un pourra m'expliquer cela.
Réponses:
Une chose que vous voudrez peut-être examiner est les forêts aléatoires régularisées, qui sont spécifiquement conçues pour la sélection des fonctionnalités. Cet article explique le concept et comment ils diffèrent des forêts aléatoires normales
Sélection d'entités via des arbres régularisés
Il existe également un package CRAN RRF basé sur randomForest qui vous permettra de les implémenter facilement dans R. J'ai moi-même eu de la chance avec cette méthodologie.
Concernant votre question initiale, le seul conseil que je puisse vous donner est que si vous avez beaucoup de colinéarité, vous devez utiliser des tailles d'arbre plus petites. Cela permet à l'algorithme de déterminer l'importance avec moins d'interférences dues aux effets de colinéarité.
la source
Vous pourrez peut-être utiliser
caretFuncs
quelque chose comme ceci:En outre, on peut vérifier le
valSelRF
colis. Je ne sais pas en quoi cela diffère de celuiregularized random forest
mentionné ici.la source