Je connais quelqu'un qui travaille sur un projet qui implique l'ingestion de fichiers de données sans tenir compte des colonnes ou des types de données. La tâche consiste à prendre un fichier avec un nombre quelconque de colonnes et divers types de données et à produire des statistiques récapitulatives sur les données numériques.
Cependant, il ne sait pas comment procéder pour attribuer dynamiquement des types de données à certaines données numériques. Par exemple:
CITY
Albuquerque
Boston
Chicago
Ce ne sont évidemment pas des données numériques et seront stockées sous forme de texte. cependant,
ZIP
80221
60653
25525
ne sont pas clairement marqués comme catégoriques. Son logiciel lui attribuerait le code postal sous forme de statistiques résumées numériques et de sortie, ce qui n'a aucun sens pour ce type de données.
Quelques idées que nous avions:
- Si une colonne est composée de nombres entiers, étiquetez-la comme catégorielle. Cela ne fonctionnerait clairement pas, mais c'était une idée.
- Si une colonne a moins de n valeurs uniques et est numérique, étiquetez-la catégoriquement. Cela pourrait être plus proche, mais il pourrait toujours y avoir des problèmes avec les données numériques qui passent.
- Conservez une liste de données numériques courantes qui devraient être catégoriques et comparez les en-têtes de colonne à cette liste pour les correspondances. Par exemple, tout ce qui contient "ZIP" serait catégorique.
Mon instinct me dit qu'il n'y a aucun moyen d'attribuer avec précision des données numériques catégorielles ou numériques, mais j'espérais une suggestion. Toute idée que vous avez est grandement appréciée.
la source
Réponses:
Je ne connais pas de façon infaillible de le faire. Voici une idée qui me vient à l'esprit:
la source
Si vous avez, par exemple, le nombre d'enfants d'une famille (qui peut varier, par exemple, entre 0 et 5), s'agit-il d'une variable catégorielle ou numérique? En fait, cela dépend de votre problème et de la façon dont vous comptez le résoudre. En ce sens, vous pouvez effectuer les opérations suivantes:
En cas de valeurs discrètes, un test supplémentaire pourrait être: utiliser un modèle de régression pour estimer certains des paramètres et vérifier si les valeurs estimées sont contenues dans l'ensemble de valeurs d'origine. Si ce n'est pas vrai, vous avez probablement affaire à des données catégorielles (comme c'est le cas de ZIP).
Cela a relativement bien fonctionné pour moi dans le passé ...
la source
Étant donné que cette question a été transposée, les premiers commentaires de @nickcox sur Cross Validated sont très pertinents et vrais. Mes vues sont légèrement différentes. Par exemple, je reformulerais la question en la décomposant en deux parties: premièrement, il y a la question de savoir comment classer un flux d'informations inconnues par type de données et, deuxièmement, quel type de taux de mauvaise classification peut-on attendre. Les deux questions sont immédiatement répondables, si quelqu'un veut prendre le temps de le faire.
Le premier problème revient à développer un système expert basé sur des règles, dans le sens de ce qui a été proposé à titre préliminaire dans les commentaires et réponses sur ces fils de discussion à l'aide d'échantillons de données réelles qui sont facilement disponibles.
Deuxièmement, étant donné que ces données réelles contiennent des types de données connus, l'analyse comparative de l'erreur de classification.
Une troisième étape impliquerait une mise à jour itérative des règles afin de refléter plus précisément les informations transmises - dans la mesure du possible.
Dans mon esprit, bien que fastidieux, un tel projet n'impliquerait pas une quantité de travail prohibitive.
---- Commentaire additionnel ----
Une bonne discussion sur l'extraction de fonctionnalités en ce qui concerne le processus de génération de données apparaît sur CV ici:
/stats/191935/what-does-the-process-that-generates-the-data-mean-and-how-does-feature-selec
L'extraction, la sélection des fonctionnalités et le DGP constituent un excellent point de départ pour développer un système expert.
la source