J'ai une liste de mots, appartenant à différentes catégories auto-définies. Chaque catégorie a son propre motif (par exemple une a une longueur fixe avec des caractères spéciaux, une autre existe de caractères qui n'apparaissent que dans cette catégorie de "mot", ...).
Par exemple:
"ABC" -> type1
"ACC" -> type1
"a8 219" -> type2
"c 827" -> type2
"ASDF 123" -> type2
"123123" -> type3
...
Je recherche une technique d'apprentissage automatique pour apprendre ces modèles par elle-même, sur la base de données de formation. J'ai déjà essayé de définir certaines variables prédictives (par exemple la longueur des mots, le nombre de caractères spéciaux, ...) par moi-même, puis j'ai utilisé un Neural-Networks pour apprendre et prédire la catégorie. Mais ce n'est vraiment pas ce que je veux. Je veux une technique pour apprendre le motif de chaque catégorie par elle-même - même pour apprendre des motifs auxquels je n'ai jamais pensé.
Je donne donc l'algorithme des données d'apprentissage (consistant en des exemples de catégories de mots) et je veux qu'il apprenne des modèles pour chaque catégorie afin de prédire plus tard la catégorie à partir de mots similaires ou égaux.
Existe-t-il une manière de le faire de pointe?
Merci de votre aide
Réponses:
Votre problème pourrait-il être reformulé comme voulant découvrir les expressions régulières qui correspondront aux chaînes de chaque catégorie? Il s'agit d'un problème de «génération de regex», un sous-ensemble du problème d' induction grammaticale (voir également le site Web d'Alexander Clark ).
Le problème de l'expression régulière est plus facile. Je peux vous indiquer le code frak et RegexGenerator . Le RegexGenerator ++ en ligne contient des références à leurs articles académiques sur le problème.
la source
Vous pouvez essayer des réseaux de neurones récurrents, où votre entrée est une séquence de lettres dans le mot et votre sortie est une catégorie. Cela correspond à vos besoins, de sorte que vous ne codez aucune fonctionnalité à la main.
Cependant, pour que cette méthode fonctionne, vous aurez besoin d'un ensemble de données d'entraînement assez volumineux.
Vous pouvez vous référer à l' étiquetage de séquences supervisées avec des réseaux de neurones récurrents par Alex Graves chapitre 2 pour plus de détails.
Ceci est un lien vers la préimpression
la source