Je travaille en NLTK depuis un certain temps en utilisant Python. Le problème auquel je suis confronté est qu'il n'y a aucune aide disponible sur la formation NER en NLTK avec mes données personnalisées. Ils ont utilisé MaxEnt et l'ont formé sur le corpus ACE. J'ai beaucoup cherché sur le Web, mais je n'ai trouvé aucun moyen de former le NER de NLTK.
Si quelqu'un peut me fournir un lien / article / blog, etc. qui peut me diriger vers le format de jeux de données de formation utilisé dans la formation du NER de NLTK, je peux donc préparer mes jeux de données sur ce format particulier. Et si je suis dirigé vers un lien / article / blog, etc. qui peut m'aider à former le NER de NLTK pour mes propres données.
C'est une question largement recherchée et la moins répondue. Pourrait être utile à quelqu'un à l'avenir dont le travail avec NER.
la source
Réponses:
La formation d'un modèle, lié à l' extraction d'informations , en général, et à la reconnaissance / résolution d'entités nommées (NER) , en particulier, est décrite en détail dans le chapitre 7 du livre NLTK , disponible en ligne à cette URL: http: //www.nltk .org / book / ch07.html .
De plus, je pense que vous pourriez trouver utile ma réponse connexe sur le site Cross Validated . Il contient de nombreuses références à des sources pertinentes sur le TNS et des sujets connexes ainsi qu'à divers outils logiciels connexes .
la source
Cet article est-il assez bon? http://www.succeed-project.eu/wiki/index.php/NLTK#Input_format_for_training
Il y a une explication sur l'apparence du corpus.
Vos données doivent être au format IOB (mot tag chunktag) pour le faire fonctionner.
Eric NNP B-PERSON
est VB O
le
PDG d' AT B-NP NN I-NP
de IN O
Google NNP B-ORGANIZATION
la source
J'ai trouvé ce tutoriel très utile: Guide complet pour construire votre propre Named Entity Recognizer avec Python Il utilise le corpus Groningen Meaning Bank (GMB) pour former son morceau NER.
Après cela, vous pouvez consulter ce tutoriel de la même personne: Formation d'un système NER à l'aide d'un grand ensemble de données Où il utilise scikit learn pour améliorer les performances de son système.
Enfin, quelques tutoriels vraiment utiles peuvent être trouvés ici: Tutoriel NLTK Ce gars a une chaîne youtube avec beaucoup de tutoriels dans de nombreux sujets (ML, NLP, Python ...)
J'espère que cela aide.
la source