Où trouver un grand corpus de texte? [fermé]

16

Je recherche un grand (> 1000) corpus de texte à télécharger. De préférence avec des nouvelles du monde ou une sorte de rapports . Je n'en ai trouvé qu'un avec des brevets. Aucune suggestion?

Dimitar Vouldjeff
la source
Ce fil semble être hors sujet. Voir meta.stats.stackexchange.com/questions/1032/… .
whuber
Cette question semble être hors sujet car il s'agit de trouver un ensemble de données, plutôt que de faire une analyse statistique
Peter Flom - Réintégrer Monica
2
Eh bien, c'est gênant, car ce Q & A est vraiment utile.
Sideshow Bob
@guaka, veuillez ne pas supprimer de tels anciens messages pour des modifications mineures, en particulier un message qui est fermé. Il est vrai que notre préférence de style n'est pas d'avoir des "merci", mais pour quelque chose d'aussi mineur, nous le laisserions.
gung - Réintègre Monica

Réponses:

9

Les textes de Wikileaks ne vous conviennent pas?

adamo
la source
Mais comment pourrais-je les télécharger en .txt
Dimitar Vouldjeff
6

Et les wikinews ? Voici le dernier vidage de base de données que j'ai pu trouver: http://dumps.wikimedia.org/enwikinews/20111120/

Vous voulez probablement la version «Toutes les pages, versions actuelles uniquement».

mogron
la source
Cela ne fonctionne plus.
vy32
le lien de vidage ne fonctionne plus. l'ensemble de données par région est petit et obsolète
HappyCoding
6

Le corpus de texte Reuters est un classique dans le domaine, et peut être trouvé ici

richiemorrisroe
la source
Ce n'est pas le corpus le plus intéressant (ou le plus divers). La licence est également restrictive par rapport à Wikileaks (documents américains du domaine public) ou wikinews.
ariddell
@ariddell, je suis d'accord, mais il est couramment utilisé dans les exemples d'introduction de la PNL, et il est suffisamment grand pour être utile à l'apprentissage mais assez petit pour être analysé sur un bon ordinateur portable.
richiemorrisroe
1

Si vous voulez des n-grammes précalculés, vous pouvez essayer l'archive Google Books:

http://books.google.com/ngrams/datasets

tdc
la source
comment celui-ci peut être utilisé?
HappyCoding