L'extraction et la sélection d'entités réduisent essentiellement la dimensionnalité des données, mais l'extraction d'entités rend également les données plus séparables, si j'ai raison.
Quelle technique serait préférée à l'autre et quand?
Je pensais, puisque la sélection des fonctionnalités ne modifie pas les données d'origine et ses propriétés, je suppose que vous utiliserez la sélection des fonctionnalités lorsqu'il est important que les fonctionnalités sur lesquelles vous vous entraînez restent inchangées. Mais je ne peux pas imaginer pourquoi vous voudriez quelque chose comme ça ..
Comme l'a dit Aditya, il y a 3 termes liés aux fonctionnalités qui sont parfois confondus. Je vais essayer de donner une explication sommaire à chacun d'eux:
Si la seule chose que vous souhaitez réaliser est la réduction de la dimensionnalité dans un jeu de données existant, vous pouvez utiliser des méthodes de transformation d'entités ou de sélection d'entités. Mais si vous avez besoin de connaître l'interprétation physique des fonctionnalités que vous identifiez comme "importantes" ou si vous essayez de limiter la quantité de données qui doivent être collectées pour votre analyse (vous avez besoin de tout l'ensemble initial de fonctionnalités pour la transformation des fonctionnalités), alors seule la sélection des fonctionnalités peut fonctionner.
Vous pouvez trouver plus de détails sur la sélection d'entités et la réduction de dimensionnalité dans les liens suivants:
Un résumé des méthodes de réduction des dimensions
Classification et sélection des fonctionnalités: un examen
Questions et réponses pertinentes dans Stack Overflow
la source
Je pense que ce sont 2 choses différentes,
Commençons par la sélection des fonctionnalités :
Cette technique est utilisée pour sélectionner les caractéristiques qui expliquent le plus la variable cible (a une corrélation avec la variable cible). Ce test est exécuté juste avant l'application du modèle sur les données.
Pour mieux l'expliquer, prenons un exemple: il y a 10 caractéristique et 1 variable cible, 9 caractéristiques expliquent 90% de la variable cible et 10 caractéristiques ensemble 91% de la variable cible. La variable 1 ne fait donc pas beaucoup de différence, vous avez donc tendance à supprimer cela avant la modélisation (elle est également subjective pour l'entreprise). Je peux également être appelé comme Predictor Importance.
Parlons maintenant de l' extraction de fonctionnalités ,
Qui est utilisé dans l'apprentissage non supervisé, extraction des contours dans les images, extraction des Biogrammes d'un texte, extraction des phonèmes de l'enregistrement du texte parlé. Lorsque vous ne savez rien sur les données comme aucun dictionnaire de données, trop de fonctionnalités, ce qui signifie que les données ne sont pas dans un format compréhensible. Ensuite, vous essayez d'appliquer cette technique pour obtenir certaines fonctionnalités qui expliquent la plupart des données. L'extraction d'entités implique une transformation des entités, qui souvent n'est pas réversible car certaines informations sont perdues dans le processus de réduction de dimensionnalité.
Vous pouvez appliquer l'extraction d'entités sur les données données pour extraire des entités, puis appliquer la sélection d'entités par rapport à la variable cible pour sélectionner le sous-ensemble qui peut aider à créer un bon modèle avec de bons résultats.
vous pouvez passer par ces Link-1 , Link-2 pour une meilleure compréhension.
nous pouvons les implémenter en R, Python, SPSS.
faites-moi savoir si vous avez besoin de plus de précisions.
la source
Les deux sont très différents: la sélection d'entités réduit en effet les dimensions, mais l'extraction d'entités ajoute des dimensions qui sont calculées à partir d'autres entités.
Pour les données de panel ou de séries chronologiques, on a généralement la variable datetime, et on ne veut pas entraîner la variable dépendante à la date elle-même car elles ne se produiront pas à l'avenir. Vous devez donc éliminer l'élimination de datetime: feature.
D'un autre côté, le jour de la semaine / du week-end peut être très pertinent, nous devons donc calculer l'état de la semaine à partir de l'extraction de datetime: feature.
la source
Citation: "Un apprentissage automatique pratique avec SciKit-Learn, Keras et Tensorflow - Aurelien Geron"
la source