J'essaie de supprimer les mots vides avant d'effectuer la modélisation du sujet. J'ai remarqué que certains mots de négation (pas, ni, jamais, aucun, etc.) sont généralement considérés comme des mots vides. Par exemple, NLTK, spacy et sklearn incluent "not" dans leurs listes de mots vides. Cependant, si nous supprimons «non» de ces phrases ci-dessous, elles perdent leur signification significative et ce ne serait pas exact pour la modélisation de sujet ou l'analyse des sentiments.
1). StackOverflow is helpful => StackOverflow helpful
2). StackOverflow is not helpful => StackOverflow helpful
Quelqu'un peut-il expliquer pourquoi ces mots de négation sont généralement considérés comme des mots vides?
Réponses:
Les mots vides sont généralement considérés comme "les mots les plus courants dans une langue". Cependant, d'autres définitions basées sur différentes tâches sont possibles.
Il est clairement logique de considérer «non» comme un mot d’arrêt si votre tâche est basée sur la fréquence des mots (par exemple, l’ analyse tf – idf pour la classification des documents).
Si vous êtes préoccupé par le contexte (par exemple, l'analyse des sentiments ) du texte, il peut être judicieux de traiter les mots de négation différemment. La négation change la soi-disant valence d'un texte. Cela doit être traité avec soin et n'est généralement pas anodin. Un exemple serait le corpus de négation Twitter. Une explication de l'approche est donnée dans cet article .
la source