En PNL, le concept Gazetteer
peut être très utile pour créer des annotations. Pour autant que je comprends:
Un répertoire géographique se compose d'un ensemble de listes contenant des noms d'entités telles que des villes, des organisations, des jours de la semaine, etc. Ces listes sont utilisées pour trouver des occurrences de ces noms dans le texte, par exemple pour la tâche de reconnaissance d'entités nommées.
Il s'agit donc essentiellement d'une recherche. N'est-ce pas une sorte de triche? Si nous utilisons un Gazetteer
pour détecter les entités nommées, alors il ne se passe pas grand Natural Language Processing
- chose . Idéalement, je voudrais détecter des entités nommées à l'aide de NLP
techniques. Sinon, en quoi est-il meilleur qu'un comparateur de motifs d'expression régulière?
la source
Réponses:
Le répertoire géographique ou toute autre option de fonctionnalité de taille intentionnellement fixe semble une approche très populaire dans les articles universitaires , lorsque vous avez un problème de taille finie, par exemple NER dans un corpus fixe, ou étiquetage POS ou autre. Je ne considérerais pas cela comme de la triche à moins que la seule fonctionnalité que vous utilisiez soit l'appariement de Gazetteer.
Cependant, lorsque vous entraînez tout type de modèle de PNL, qui repose sur un dictionnaire pendant la formation, vous pouvez obtenir des performances réelles bien inférieures à celles que vos tests initiaux auraient rapportées, à moins que vous ne puissiez inclure tous les objets d'intérêt dans le répertoire géographique (et pourquoi alors vous avez besoin de ce modèle?) parce que votre modèle entraîné dépendra de la fonctionnalité à un moment donné et, dans le cas où d'autres fonctionnalités seront trop faibles ou non descriptives, de nouveaux objets d'intérêt ne seraient pas reconnus.
Si vous utilisez un répertoire géographique dans vos modèles, vous devez vous assurer que cette fonctionnalité possède une fonction de compteur pour permettre au modèle de s'équilibrer elle-même, de sorte qu'une simple correspondance de dictionnaire ne sera pas la seule fonctionnalité de la classe positive (et plus important encore, le répertoire géographique devrait correspondent non seulement à des exemples positifs, mais aussi à des exemples négatifs).
Par exemple, supposons que vous ayez un ensemble complet de variations infinies de tous les noms de personnes, ce qui rend le NER général non pertinent, mais maintenant vous essayez de décider si l'objet mentionné dans le texte est capable de chanter. Vous vous baserez sur les fonctionnalités d'inclusion dans votre répertoire géographique Person, ce qui vous donnera beaucoup de faux positifs; ensuite, vous ajouterez une fonction centrée sur les verbes de " Is Subject of verb sing ", et cela vous donnera probablement de faux positifs de toutes sortes d'objets comme des oiseaux, votre ventre lorsque vous avez faim et un homme ivre qui penseil peut chanter (mais soyons honnêtes, il ne peut pas) - mais cette fonctionnalité centrée sur le verbe s'équilibrera avec votre répertoire géographique pour attribuer une classe positive de `` chanteur '' à des personnes et non à des animaux ou à d'autres objets. Cependant, cela ne résout pas le cas d'un artiste ivre.
la source
L'utilisation d'une liste d'entités présente quelques inconvénients:
Vous pouvez faire face à ces inconvénients en suivant la direction suggérée par @emre et en utilisant la liste pour apprendre un classificateur.
Par exemple, vous pouvez utiliser des jetons près de l'entité et apprendre une règle comme celle-ci: "J'habite à X" est un indicateur d'un lieu et "J'ai parlé avec X" est un indicateur d'une personne. Vous pouvez jouer à ce jeu quelques tours en augmentant votre liste par les coups des règles et utiliser la nouvelle liste pour en savoir plus.
Veuillez noter que dans cet apprentissage, vous introduirez du bruit dans les données, donc dans la plupart des cas, l'apprentissage devrait être si simple.
la source