Classification avec un prédicteur dominant

J'ai un problème de classification (de classe ), avec de l'ordre de 100 prédicteurs à valeur réelle, dont l'un semble avoir beaucoup plus de pouvoir explicatif que les autres. Je voudrais approfondir les effets des autres variables. Cependant, les techniques standard d'apprentissage automatique (forêts aléatoires, SVM, etc.) semblent être submergées par l'un prédicteur fort et ne me donnent pas beaucoup d'informations intéressantes sur les autres. $k$

S'il s'agissait d'un problème de régression, je régresserais simplement contre le prédicteur fort, puis j'utiliserais les résidus comme entrées pour d'autres algorithmes. Je ne vois pas vraiment comment cette approche peut être traduite dans un contexte de classification.

Mon instinct est que ce problème doit être raisonnablement courant: existe-t-il une technique standard pour y faire face?

machine-learning classification Martin O'Leary
la source

Réponses:

Pour les problèmes de classe 2, vous pouvez utiliser le package GBM dans R , qui adaptera de manière itérative les arbres de classification aux résidus de la fonction de perte. Malheureusement, il ne prend pas encore en charge les problèmes multi-classes.

Cela semble être un problème bien adapté pour le boost, mais je ne connais pas de packages de boosting qui prennent en charge les problèmes de classe k. Je pense que le problème est d'écrire une fonction de perte appropriée pour les multiples classes. Les glmnetpackages ont une fonction de perte multinomiale, vous pouvez peut-être consulter son code source pour certains pointeurs.

Vous pouvez essayer d'écrire votre propre algorithme de boosting, ou vous pouvez transformer votre problème en k problèmes de classification binaire (une classe par rapport à toutes les autres classes), adapter un modèle gbm à chaque problème et faire la moyenne des probabilités de classe de chaque modèle.

Zach
la source

Zach Je ne sais pas où il en est dans la stabilité du développement, mais GBM sur R Forge a une logistique multinomiale comme fonction de perte permettant une classification multi-catégories.

B_Miner

Merci! Je suis d'accord que le renforcement est probablement un bon moyen d'aborder la question, et je vais examiner les choses que vous avez suggérées. Je suis toujours intéressé de savoir s'il existe un bon moyen de résoudre ce problème en transformant le problème.

Martin O'Leary

@Zach Veuillez me faire savoir comment cela fonctionne.

B_Miner