J'apprends la sélection des fonctionnalités. Je vois pourquoi ce serait important et utile pour la construction de modèles. Mais concentrons-nous sur les tâches d'apprentissage supervisé (classification). Pourquoi la sélection des fonctionnalités est-elle importante pour les tâches de classification?
Je vois beaucoup de littérature écrite sur la sélection des fonctionnalités et son utilisation pour l'apprentissage supervisé, mais cela me laisse perplexe. La sélection des fonctionnalités consiste à identifier les fonctionnalités à jeter. Intuitivement, le rejet de certaines fonctionnalités semble voué à l'échec: il jette des informations. Il semble que jeter des informations ne devrait pas aider.
Et même si la suppression de certaines fonctionnalités aide, si nous jetons certaines fonctionnalités et que nous intégrons le reste dans un algorithme d'apprentissage supervisé, pourquoi devons-nous le faire nous-mêmes, plutôt que de laisser l'algorithme d'apprentissage supervisé le gérer? Si une fonctionnalité n'est pas utile, aucun algorithme d'apprentissage supervisé décent ne devrait-il implicitement le découvrir et apprendre un modèle qui n'utilise pas cette fonctionnalité?
Donc, intuitivement, je m'attendais à ce que la sélection des fonctionnalités soit un exercice inutile qui n'aide jamais et peut parfois faire mal. Mais le fait qu'il soit si largement utilisé et écrit sur cela me fait suspecter que mon intuition est défectueuse. Quelqu'un peut-il donner une idée de la raison pour laquelle la sélection des fonctionnalités est utile et importante lors de l'apprentissage supervisé? Pourquoi améliore-t-il les performances de l'apprentissage automatique? Cela dépend-il du classificateur que j'utilise?