PNL - pourquoi «n'est pas» un mot d'arrêt?

J'essaie de supprimer les mots vides avant d'effectuer la modélisation du sujet. J'ai remarqué que certains mots de négation (pas, ni, jamais, aucun, etc.) sont généralement considérés comme des mots vides. Par exemple, NLTK, spacy et sklearn incluent "not" dans leurs listes de mots vides. Cependant, si nous supprimons «non» de ces phrases ci-dessous, elles perdent leur signification significative et ce ne serait pas exact pour la modélisation de sujet ou l'analyse des sentiments.

1). StackOverflow is helpful      => StackOverflow helpful
2). StackOverflow is not helpful  => StackOverflow helpful

Quelqu'un peut-il expliquer pourquoi ces mots de négation sont généralement considérés comme des mots vides?

Si vous faites une analyse sémantique des phrases, les connecteurs logiques sont évidemment importants: (1) siff not (2). Si vous avez l'intention de modéliser la logique de ces phrases, gardez-les hors du sac des arrêts. Ils sont généralement jetés là-bas parce que du point de vue de l'exploration de données, la présence de «non» dans un document ne va pas nous en dire beaucoup sur le sujet pour nous aider à le distinguer des autres documents; ce n'est pas assez rare. Il y a probablement d'autres raisons de les ignorer dans les tâches nlp.

Hunan Rostomyan

Réponses:

Les mots vides sont généralement considérés comme "les mots les plus courants dans une langue". Cependant, d'autres définitions basées sur différentes tâches sont possibles.

Il est clairement logique de considérer «non» comme un mot d’arrêt si votre tâche est basée sur la fréquence des mots (par exemple, l’ analyse tf – idf pour la classification des documents).

Si vous êtes préoccupé par le contexte (par exemple, l'analyse des sentiments ) du texte, il peut être judicieux de traiter les mots de négation différemment. La négation change la soi-disant valence d'un texte. Cela doit être traité avec soin et n'est généralement pas anodin. Un exemple serait le corpus de négation Twitter. Une explication de l'approche est donnée dans cet article .

oW_
la source