Je lisais le matériel lié à XGBoost. Il semble que cette méthode ne nécessite aucune mise à l'échelle variable car elle est basée sur des arbres et celle-ci peut capturer des interactions complexes de modèle de non-linéarité. Et il peut gérer à la fois des variables numériques et catégorielles et il semble également que les variables redondantes n'affectent pas trop cette méthode.
Habituellement, dans la modélisation prédictive, vous pouvez effectuer une sélection parmi toutes les fonctionnalités dont vous disposez et vous pouvez également créer de nouvelles fonctionnalités à partir de l'ensemble des fonctionnalités dont vous disposez. Donc, sélectionner un sous-ensemble de fonctionnalités signifie que vous pensez qu'il y a une redondance dans votre ensemble de fonctionnalités; créer de nouvelles fonctionnalités à partir du jeu de fonctionnalités actuel signifie que vous effectuez des transformations fonctionnelles sur vos fonctionnalités actuelles. Ensuite, ces deux points devraient être couverts dans XGBoost. Ensuite, cela signifie-t-il que pour utiliser XGBoost, il vous suffit de choisir judicieusement ces paramètres de réglage? Quelle est la valeur de l'ingénierie des fonctionnalités à l'aide de XGBoost?
la source
Réponses:
Définissons d'abord l'ingénierie des fonctionnalités:
XGBoost fait (1) pour vous. XGBoost ne fait pas (2) / (3) pour vous.
Il vous reste donc à faire vous-même l'ingénierie des fonctionnalités. Seul un modèle d'apprentissage en profondeur pourrait remplacer l'extraction de fonctionnalités pour vous.
la source
la source
La performance peut-être?
(Notez que nous n'utilisons pas XGBoost, mais une autre bibliothèque de renforcement de gradient - bien que les performances de XGBoost dépendent probablement aussi de la dimensionnalité des données d'une certaine manière.)
Nous avons un ensemble de données où chaque élément se compose de 3 signaux, chacun de 6000 échantillons de long - c'est 18k fonctionnalités. L'utilisation directe de ces fonctionnalités prend du temps (jours), nous avons donc procédé à une ingénierie manuelle des fonctionnalités pour réduire le nombre de fonctionnalités à environ 200. Maintenant, la formation (y compris le réglage des paramètres) est une question de quelques heures.
À titre de comparaison: il y a peu de temps, nous avons également commencé à former des ConvNets avec les mêmes données et l'ensemble des fonctionnalités 18k (pas d'ingénierie des fonctionnalités). Ils atteignent la même précision que les modèles d'amplification de gradient après seulement environ 2 heures d'entraînement.
la source
C'est probablement la meilleure réponse à votre question des gars qui utilisent trop de xgboost et d'empilement: http://blog.kaggle.com/2017/03/17/outbrain-click-prediction-competition-winners-interview-2nd -place-team-brain-afk-darragh-marios-mathias-alexey /
la source