Meilleures méthodes de sélection des caractéristiques pour la régression non paramétrique

10

Une question de débutant ici. J'effectue actuellement une régression non paramétrique en utilisant le package np dans R. J'ai 7 fonctionnalités et en utilisant une approche par force brute, j'ai identifié les meilleures 3. Mais, bientôt j'aurai bien plus de 7 fonctionnalités!

Ma question est de savoir quelles sont les meilleures méthodes actuelles de sélection des caractéristiques pour la régression non paramétrique. Et qui, le cas échéant, implémente les méthodes. Je vous remercie.

jmmcnew
la source
1
que voulez-vous dire par «beaucoup plus» 100? 1000? 10000? 100000?
Robin Girard
J'aurai probablement de l'ordre de 100 fonctionnalités. Mais je n'ai que quelques minutes pour prendre une décision sur le meilleur sous-ensemble de fonctionnalités.
jmmcnew
1
Avez-vous essayé le lasso ou le filet élastique? packages: lasso, glmnet. Ces méthodes peuvent "sélectionner" certaines variables en cours de route.
deps_stats

Réponses:

3

À moins que l'identification des variables les plus pertinentes ne soit un objectif clé de l'analyse, il est souvent préférable de ne faire aucune sélection de fonctionnalités du tout et d'utiliser la régularisation pour éviter un sur-ajustement. La sélection des fonctionnalités est une procédure délicate et il est trop facile de sur-ajuster le critère de sélection des fonctionnalités car il existe de nombreux degrés de liberté. LASSO et le filet élastique sont un bon compromis, réalisant la rareté via la régularisation plutôt que via la sélection directe des fonctionnalités, ils sont donc moins sujets à cette forme particulière de sur-ajustement.

Dikran Marsupial
la source
0

Le lasso est en effet un bon. Des choses simples comme commencer par aucun, et les ajouter un par un, triées selon leur «utilité» (via la validation croisée) fonctionnent également très bien dans la pratique. Ceci est parfois appelé sélection par anticipation par étapes.

Notez que le problème de sélection des sous-ensembles est assez indépendant du type de classification / régression. C'est juste que les méthodes non paramétriques peuvent être lentes et nécessitent donc des méthodes de sélection plus intelligentes.

Le livre «Les éléments de l'apprentissage statistique» de T. Hastie donne un bel aperçu.

Mr. White
la source