Je recherche actuellement des ensembles de données étiquetés pour former un modèle pour extraire des entités nommées à partir de texte informel (quelque chose de similaire aux tweets). Parce que la capitalisation et la grammaire font souvent défaut dans les documents de mon jeu de données, je recherche des données hors domaine qui sont un peu plus "informelles" que les articles de journaux et les entrées de journaux que bon nombre des systèmes de reconnaissance d'entités nommés de pointe sont formé sur.
Des recommandations? Jusqu'à présent, je n'ai pu localiser que 50 000 jetons de Twitter publiés ici .
Réponses:
Si je comprends bien, ce sont les propriétés que vous recherchez dans un exemple de jeu de données:
Voici quelques recommandations:
rvest
,scrapeR
, etc.) et Python pour y parvenirla source
Vérifiez-les:
Référentiel de domaines de test pour l'extraction d'informations: http://www.isi.edu/info-agents/RISE/repository.html
DBpedia: http://wiki.dbpedia.org/Downloads32 ( miroir )
Lien mis à jour:
http://www.isi.edu/integration/RISE/
https://github.com/dbpedia/extraction-framework/wiki/The-DBpedia-Data-Set
la source
Certaines des sources que j'ai utilisées:
Je pense que ces jeux de données seront d'une grande aide pour votre tâche
la source