Étant donné une phrase comme:
Complimentary gym access for two for the length of stay ($12 value per person per day)
Quelle approche générale puis-je adopter pour identifier le mot accès au gymnase ou au gymnase?
machine-learning
nlp
text-mining
data-cleaning
William Falcon
la source
la source
Réponses:
Faible profondeur N atural L angue P technique rocessing peuvent être utilisées pour extraire des concepts de phrase.
-------------------------------------------
Étapes de technique NLP peu profondes:
1) Convertissez la phrase en minuscules
2) Supprimer les mots vides (ce sont des mots courants trouvés dans une langue. Les mots comme pour, très, et, de, sont, etc., sont des mots vides courants)
3) Extraire n-gramme, c'est-à-dire une séquence contiguë de n éléments à partir d'une séquence de texte donnée (simplement augmenter n, le modèle peut être utilisé pour stocker plus de contexte)
4) Attribuer une étiquette syntaxique (nom, verbe etc.)
5) Extraction de connaissances à partir du texte grâce à une approche d'analyse sémantique / syntaxique, c'est-à-dire, essayez de conserver les mots qui ont plus de poids dans une phrase comme Noun / Verb
-------------------------------------------
Examinons les résultats de l'application des étapes ci-dessus à votre phrase donnée
Complimentary gym access for two for the length of stay ($12 value per person per day)
.Résultats 1 gramme: gym, accès, durée, séjour, valeur, personne, jour
Permet d'augmenter n pour stocker plus de contexte et supprimer les mots vides.
Résultats de 2 grammes: gymnase gratuit, accès au gymnase, durée du séjour, valeur du séjour
Résultats de 3 grammes: accès gratuit à la salle de sport, durée du séjour, personne par jour
Choses à retenir:
Outils:
Vous pouvez envisager d'utiliser OpenNLP / StanfordNLP pour le balisage Part of Speech. La plupart des langages de programmation ont une bibliothèque de support pour OpenNLP / StanfordNLP. Vous pouvez choisir la langue en fonction de votre confort. Voici l'exemple de code R que j'ai utilisé pour le marquage PoS.
Exemple de code R:
Lectures supplémentaires sur la PNL peu profonde et profonde:
Traitement NLP peu profond et profond pour l'apprentissage de l'ontologie: un aperçu rapide Cliquez ici
Intégration de la PNL peu profonde et profonde pour l'extraction d'informations Cliquez ici
la source
Vous devez analyser la structure de la phrase et extraire les catégories syntaxiques d'intérêt correspondantes (dans ce cas, je pense que ce serait un syntagme nominal , qui est une catégorie phrasale ). Pour plus de détails, voir l'article Wikipédia correspondant et le chapitre "Analyse de la structure des phrases" du livre NLTK.
En ce qui concerne les outils logiciels disponibles pour la mise en œuvre de l'approche susmentionnée et au-delà, je suggère de considérer soit le NLTK (si vous préférez Python), soit le logiciel StanfordNLP (si vous préférez Java). Pour de nombreux autres frameworks NLP, bibliothèques et programmation de la prise en charge de divers langages, voir les sections correspondantes (NLP) dans cette excellente liste organisée .
la source
Si vous êtes un utilisateur R, il y a beaucoup de bonnes informations pratiques sur http://www.rdatamining.com . Regardez leurs exemples d'exploration de texte.
Jetez également un œil au package tm.
C'est aussi un bon site d'agrégation - http://www.tapor.ca/
la source