Sans tenir compte des contraintes de calcul possibles, existe-t-il des applications générales où la lemmatisation serait une étape contre-productive lors de l'analyse des données textuelles?
Par exemple, la lemmatisation serait-elle quelque chose qui ne se fait pas lors de la construction d'un modèle contextuel?
Pour référence, la lemmatisation par dictinory.com est l'acte de regrouper les formes fléchies de (un mot) pour l'analyse en un seul élément.
Par exemple, le mot «cuisinier» est le lemme du mot «cuisiner». L'acte de lemmatisation consiste, par exemple, à remplacer le mot cuisine par cuisinier après avoir symbolisé vos données de texte. De plus, le mot «pire» a «mauvais» comme lemme et, comme l'exemple précédent, remplacer le mot «pire» par «mauvais» est l'action de la lemmatisation.
la source
Réponses:
Tâches PNL qui seraient affectées par la lemmatisation:
1) Classification tendue
La séquence de caractères à la fin des verbes peut vous aider dans cette tâche. Les verbes cuits et cuisiniers diffèrent aux derniers caractères éd et s respectivement.
Avec la lemmatisation, cette information est perdue. Les deux verbes deviennent cuisinier , ce qui fait que les deux phrases semblent (dans ce cas) au présent.
2) Identification de l'auteur
Donné
classer si un documents ∈ S est écrit par l'auteur une ou b .
Une façon d'y parvenir est de regarder l'histogramme des mots présents danss et le comparer aux documents de P et Q et sélectionnez le plus similaire.
Cela fonctionne parce que différents auteurs utilisent certains mots avec des fréquences différentes. Cependant, en utilisant la lemmatisation, vous déformez ces fréquences, ce qui nuit aux performances de votre modèle.
la source