Génération d' entités - Il s'agit du processus consistant à prendre des données brutes et non structurées et à définir des entités (c'est-à-dire des variables) pour une utilisation potentielle dans votre analyse statistique. Par exemple, dans le cas de l'exploration de texte, vous pouvez commencer avec un journal brut de milliers de messages texte (par exemple SMS, e-mail, messages de réseaux sociaux, etc.) et générer des fonctionnalités en supprimant les mots de faible valeur (par exemple, les mots vides), en utilisant une certaine taille blocs de mots (par exemple n-grammes) ou en appliquant d'autres règles.
Extraction d' entités - Après avoir généré des entités, il est souvent nécessaire de tester les transformations des entités d'origine et de sélectionner un sous-ensemble de ce pool d'entités potentielles originales et dérivées à utiliser dans votre modèle (c'est-à-dire l'extraction et la sélection d'entités). Le test des valeurs dérivées est une étape courante car les données peuvent contenir des informations importantes qui ont un modèle ou une relation non linéaire avec votre résultat, ainsi l'importance de l'élément de données peut seulement être apparente dans son état transformé (par exemple, les dérivés d'ordre supérieur). L'utilisation d'un trop grand nombre d'entités peut entraîner une colinéarité multipliée ou autrement confondre des modèles statistiques, tandis que l'extraction du nombre minimum d'entités en fonction de l'objectif de votre analyse suit le principe de la parcimonie.
L'amélioration de votre espace d'entités de cette manière est souvent une étape nécessaire dans la classification des images ou d'autres objets de données, car l'espace d'entités brutes est généralement rempli d'une quantité écrasante de données non structurées et non pertinentes qui comprennent ce qui est souvent appelé «bruit» dans le paradigme. d'un "signal" et d'un "bruit" (c'est-à-dire que certaines données ont une valeur prédictive et d'autres pas). En améliorant l'espace des fonctionnalités, vous pouvez mieux identifier les données importantes qui ont une valeur prédictive ou autre dans votre analyse (c'est-à-dire le "signal") tout en supprimant les informations confondantes (c'est-à-dire le "bruit").