Je recherche un grand (> 1000) corpus de texte à télécharger. De préférence avec des nouvelles du monde ou une sorte de rapports . Je n'en ai trouvé qu'un avec des brevets. Aucune suggestion?
Cette question semble être hors sujet car il s'agit de trouver un ensemble de données, plutôt que de faire une analyse statistique
Peter Flom - Réintégrer Monica
2
Eh bien, c'est gênant, car ce Q & A est vraiment utile.
Sideshow Bob
@guaka, veuillez ne pas supprimer de tels anciens messages pour des modifications mineures, en particulier un message qui est fermé. Il est vrai que notre préférence de style n'est pas d'avoir des "merci", mais pour quelque chose d'aussi mineur, nous le laisserions.
Ce n'est pas le corpus le plus intéressant (ou le plus divers). La licence est également restrictive par rapport à Wikileaks (documents américains du domaine public) ou wikinews.
ariddell
@ariddell, je suis d'accord, mais il est couramment utilisé dans les exemples d'introduction de la PNL, et il est suffisamment grand pour être utile à l'apprentissage mais assez petit pour être analysé sur un bon ordinateur portable.
Réponses:
Les textes de Wikileaks ne vous conviennent pas?
la source
Et les wikinews ? Voici le dernier vidage de base de données que j'ai pu trouver: http://dumps.wikimedia.org/enwikinews/20111120/
Vous voulez probablement la version «Toutes les pages, versions actuelles uniquement».
la source
Le corpus de texte Reuters est un classique dans le domaine, et peut être trouvé ici
la source
http://endb-consolidated.aihit.com/datasets.htm contient 10 000 sociétés avec des descriptions textuelles
la source
Si la récence n'est pas un problème, vous pouvez essayer
http://www.infochimps.com/datasets/20-newsgroups-dataset-de-duped-version
et il existe d'autres ensembles de données beaucoup plus similaires dans infochimp en fonction de votre budget.
Cordialement, Andy.
la source
Si vous voulez des n-grammes précalculés, vous pouvez essayer l'archive Google Books:
http://books.google.com/ngrams/datasets
la source