Quand dois-je utiliser chacun?
Aussi ... la lemmatisation NLTK dépend-elle des parties du discours? Ne serait-ce pas plus précis si c'était le cas?
python
nlp
nltk
lemmatization
TIMEX
la source
la source
Réponses:
Court et dense: http://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-1.html
À partir de la documentation NLTK:
la source
Source : https://en.wikipedia.org/wiki/Lemmatisation
la source
Il y a deux aspects pour montrer leurs différences:
Un radical retournera la racine d'un mot, qui n'a pas besoin d'être identique à la racine morphologique du mot. Il suffit généralement que les mots apparentés correspondent à la même racine, même si la racine n'est pas en elle-même une racine valide, alors qu'en lemmatisation , elle renverra la forme dictionnaire d'un mot, qui doit être un mot valide.
Dans la lemmatisation , la partie du discours d'un mot doit être d'abord déterminée et les règles de normalisation seront différentes pour différentes parties du discours, tandis que le stemmer opère sur un seul mot sans connaissance du contexte, et ne peut donc pas discriminer entre les mots qui ont des significations en fonction de la partie du discours.
Référence http://textminingonline.com/dive-into-nltk-part-iv-stemming-and-lemmatization
la source
Le but de la tige et de la lemmatisation est de réduire la variation morphologique. Ceci est en contraste avec les procédures plus générales de "conflation de termes", qui peuvent également traiter des variations lexico-sémantiques, syntaxiques ou orthographiques.
La vraie différence entre la tige et la lemmatisation est triple:
La radicalisation réduit les formes de mots à des (pseudo) tiges, tandis que la lemmatisation réduit les formes de mots à des lemmes linguistiquement valides. Cette différence est apparente dans les langues à morphologie plus complexe, mais peut ne pas être pertinente pour de nombreuses applications IR;
La lemmatisation ne traite que de la variance flexionnelle, tandis que la dérivation peut également traiter de la variance dérivée;
En termes de mise en œuvre, la lemmatisation est généralement plus sophistiquée (en particulier pour les langages morphologiquement complexes) et nécessite généralement une sorte de lexica. Une issue satisfaisante, en revanche, peut être obtenue avec des approches basées sur des règles plutôt simples.
La lemmatisation peut également être sauvegardée par un marqueur de partie de discours afin de lever l'ambiguïté des homonymes.
la source
Comme l'a souligné MYYN, la radicalisation est le processus consistant à supprimer les affixes flexionnels et parfois dérivatifs d'une forme de base à laquelle tous les mots originaux sont probablement liés. La lemmatisation consiste à obtenir le mot unique qui vous permet de regrouper un tas de formes fléchies. C'est plus difficile que le radicalisme car il nécessite de prendre en compte le contexte (et donc le sens du mot), tandis que le radical ignore le contexte.
Quant au moment où vous utiliseriez l'un ou l'autre, il s'agit de savoir dans quelle mesure votre application dépend de la correction de la signification d'un mot dans son contexte. Si vous faites de la traduction automatique, vous voulez probablement que la lemmatisation évite de mal traduire un mot. Si vous recherchez des informations sur plus d'un milliard de documents avec 99% de vos requêtes allant de 1 à 3 mots, vous pouvez vous contenter de la racine.
Quant à NLTK, le WordNetLemmatizer utilise la partie du discours, bien que vous deviez la fournir (sinon, il utilise par défaut les noms). Passer "colombe" et "v" donne "plongée" tandis que "colombe" et "n" donne "colombe".
la source
Une explication basée sur des exemples sur les différences entre la lemmatisation et la racine:
La lemmatisation gère la correspondance entre «voiture» et «voitures» ainsi que «voiture» et «automobile».
Poignées de tige assorties «voiture» à «voitures» .
http://www.ideaeng.com/stemming-lemmatization-0601
la source
ianacl
mais je pense que Stemming est un hack grossier que les gens utilisent pour obtenir toutes les différentes formes du même mot en une forme de base qui n'a pas besoin d'être un mot légitime en soi
Quelque chose comme le Porter Stemmer peut utiliser de simples expressions rationnelles pour éliminer les suffixes de mots courants
La lemmatisation ramène un mot à sa forme de base réelle qui, dans le cas des verbes irréguliers, pourrait ne rien ressembler au mot d'entrée
Quelque chose comme Morpha qui utilise les FST pour ramener les noms et les verbes à leur forme de base
la source
La racine supprime ou supprime simplement les derniers caractères d'un mot, ce qui conduit souvent à des significations et une orthographe incorrectes. La lemmatisation considère le contexte et convertit le mot en sa forme de base significative, appelée Lemme. Parfois, le même mot peut avoir plusieurs Lemmes différents. Nous devons identifier la balise Part of Speech (POS) pour le mot dans ce contexte spécifique. Voici les exemples pour illustrer toutes les différences et les cas d'utilisation:
la source
La racine est le processus consistant à supprimer les derniers caractères d'un mot donné, pour obtenir une forme plus courte, même si cette forme n'a aucun sens.
Exemples,
La tige peut être effectuée très rapidement.
La lemmatisation, quant à elle, est le processus de conversion du mot donné dans sa forme de base en fonction de la signification du mot dans le dictionnaire.
Exemples,
La lemmatisation prend plus de temps que la racine.
la source