Quelle est la différence entre la génération et l'extraction de fonctionnalités?

13

Quelqu'un peut-il me dire quel est le but de la génération de fonctionnalités? et pourquoi l'enrichissement de l'espace des fonctionnalités est nécessaire avant de classer une image? Est-ce une étape nécessaire?

Existe-t-il une méthode pour enrichir l'espace des fonctionnalités?

Saratha Priya
la source

Réponses:

13

Génération d' entités - Il s'agit du processus consistant à prendre des données brutes et non structurées et à définir des entités (c'est-à-dire des variables) pour une utilisation potentielle dans votre analyse statistique. Par exemple, dans le cas de l'exploration de texte, vous pouvez commencer avec un journal brut de milliers de messages texte (par exemple SMS, e-mail, messages de réseaux sociaux, etc.) et générer des fonctionnalités en supprimant les mots de faible valeur (par exemple, les mots vides), en utilisant une certaine taille blocs de mots (par exemple n-grammes) ou en appliquant d'autres règles.

Extraction d' entités - Après avoir généré des entités, il est souvent nécessaire de tester les transformations des entités d'origine et de sélectionner un sous-ensemble de ce pool d'entités potentielles originales et dérivées à utiliser dans votre modèle (c'est-à-dire l'extraction et la sélection d'entités). Le test des valeurs dérivées est une étape courante car les données peuvent contenir des informations importantes qui ont un modèle ou une relation non linéaire avec votre résultat, ainsi l'importance de l'élément de données peut seulement être apparente dans son état transformé (par exemple, les dérivés d'ordre supérieur). L'utilisation d'un trop grand nombre d'entités peut entraîner une colinéarité multipliée ou autrement confondre des modèles statistiques, tandis que l'extraction du nombre minimum d'entités en fonction de l'objectif de votre analyse suit le principe de la parcimonie.

L'amélioration de votre espace d'entités de cette manière est souvent une étape nécessaire dans la classification des images ou d'autres objets de données, car l'espace d'entités brutes est généralement rempli d'une quantité écrasante de données non structurées et non pertinentes qui comprennent ce qui est souvent appelé «bruit» dans le paradigme. d'un "signal" et d'un "bruit" (c'est-à-dire que certaines données ont une valeur prédictive et d'autres pas). En améliorant l'espace des fonctionnalités, vous pouvez mieux identifier les données importantes qui ont une valeur prédictive ou autre dans votre analyse (c'est-à-dire le "signal") tout en supprimant les informations confondantes (c'est-à-dire le "bruit").

Hack-R
la source
2
Bonne réponse! (+1)
Aleksandr Blekh
1
Avec plaisir!
Aleksandr Blekh
Merci. Existe-t-il des méthodes pour enrichir l'espace des fonctionnalités?
Saratha Priya
Sûr. Il existe de nombreuses méthodes de ce type. Par exemple, le filtre de Gabor est un algorithme de détection de bord de filtre passe-bande couramment utilisé pour la génération de caractéristiques dans la reconnaissance faciale et la classification de texture. Cela peut être utilisé en combinaison avec des algorithmes de classification tels que les machines à vecteurs de support.
Hack-R
Puis-je l'utiliser pour enrichir des fonctionnalités dans la classification d'images?
Saratha Priya