Jeu de données pour la reconnaissance d'entités nommées sur du texte informel

18

Je recherche actuellement des ensembles de données étiquetés pour former un modèle pour extraire des entités nommées à partir de texte informel (quelque chose de similaire aux tweets). Parce que la capitalisation et la grammaire font souvent défaut dans les documents de mon jeu de données, je recherche des données hors domaine qui sont un peu plus "informelles" que les articles de journaux et les entrées de journaux que bon nombre des systèmes de reconnaissance d'entités nommés de pointe sont formé sur.

Des recommandations? Jusqu'à présent, je n'ai pu localiser que 50 000 jetons de Twitter publiés ici .

Madison May
la source
2
Recommander de demander sur opendata.stackexchange.com
Air
@Madison May. Avez-vous trouvé un ensemble de données? Je cherche quelque chose de similaire. Merci.
ahoffer
J'ai dû me contenter du twitter ner corpus de U. Washington (lié à dans le post original).
Madison
obtenu un bon corpus anglais annoté?
Achyuta nanda sahoo

Réponses:

6

Si je comprends bien, ce sont les propriétés que vous recherchez dans un exemple de jeu de données:

  1. Données texte
  2. Il doit être informel, c'est-à-dire avoir des fautes de frappe, de l'argot et, fondamentalement, quelque chose qui n'est pas édité par des professionnels
  3. Quelque chose d'autre que Twitter (je ne vous en veux pas, Twitter est un exemple de source de données utile mais largement surutilisé dans l'exploration de texte)

Voici quelques recommandations:

  1. Emails du corpus SpamAssassin - notez que les jeux de données "ham" (non-spam) et spam sont disponibles
  2. ensemble de données microblogPCU de l'UCI, qui sont des données extraites des microblogs des utilisateurs de Sina Weibo - notez que les données textuelles brutes sont un mélange de chinois et d'anglais (vous pouvez effectuer une traduction automatique du chinois, filtrer en anglais uniquement ou l'utiliser) comme si)
  3. Amazon Commerce examine l' ensemble de données de l'UCI
  4. Dans l' ensemble de données bag-o-words , essayez d'utiliser les e-mails d'Enron
  5. L' ensemble de données Twenty Newsgroups
  6. Cette belle collection de spam SMS
  7. Vous pouvez toujours extraire (extraire) vos propres données texte d'Internet; Je ne sais pas quel paquet langue ou statistiques que vous utilisez, mais des forfaits basés sur XPath sont disponibles dans R ( rvest, scrapeR, etc.) et Python pour y parvenir
Hack-R
la source
1
Certains de ces ensembles de données sont-ils cependant annotés avec des entités nommées? Je crois que c'est ce que OP recherchait.
M. Phil