J'essaie de recueillir des statistiques sur les séquences de caractères ou de mots utilisées en anglais pour les utiliser dans un projet logiciel.
Où puis-je obtenir une grande quantité (plusieurs Go serait bien) de texte brut en anglais couvrant un ensemble divers de sujets?
research
statistics
JSideris
la source
la source
Réponses:
Vous pouvez utiliser les vidages de données de Wikipedia . Le vidage de données XML pour Wikipedia anglais qui inclut uniquement les révisions actuelles est d'environ 31 Go, donc je dirais que ce serait un bon début pour votre recherche. Le vidage de données est assez important, vous devriez donc envisager d'extraire les textes de XML avec un analyseur SAX. WikiXMLJ est une API Java pratique optimisée pour Wikipedia.
Et puis, bien sûr, il y a toujours les vidages de données Stack Exchange . Le dernier inclut tous les sites Stack Exchange publics non bêta et les sites Meta correspondants jusqu'en septembre 2011. Mais, naturellement, les publications Stack Exchange sont concentrées sur la portée de chaque site, donc probablement pas aussi généralisées que vous le souhaiteriez. Les messages Meta sont un peu plus généraux, vous pouvez donc les considérer en plus de Wikipedia.
Je ne pense pas que vous trouverez mieux, surtout en texte clair. Plusieurs ensembles de données ouverts sont disponibles via le Data Hub , mais je pense que le vidage de données de Wikipedia anglais est très proche de ce que vous recherchez.
la source
Google possède une collection d'ensembles de données qu'ils utilisent pour déterminer les probabilités de n grammes. L'examen de leurs ensembles de données bigrammes (2 grammes) devrait vous donner une bonne image. Il existe de nombreux autres corpi pour lesquels ces analyses ont déjà été effectuées.
la source
Le projet Gutenberg dispose d'un large corpus de textes en anglais, déjà sous forme de texte.
la source
Pour les statistiques, vous regardez probablement "Bigram Frequency in the English language". Jetez un oeil à: Wiki-Bigram Stats
quant à la recherche d'un texte volumineux, notez que la fréquence serait biaisée par le type de texte. Par exemple, si vous analysez des adresses, vous obtiendrez des résultats différents de l'analyse des articles de journaux. Si vous voulez simplement tester, vous pouvez utiliser le fichier PDF de n'importe quel livre (mieux vaut ne pas être un livre de mathématiques, de programmation ou médical) et le convertir en texte, puis exécuter vos tests. Vous pouvez également convertir des pages Web de journaux en texte et y travailler.
la source