Où puis-je obtenir un ensemble diversifié d'exemples de texte? [fermé]

14

J'essaie de recueillir des statistiques sur les séquences de caractères ou de mots utilisées en anglais pour les utiliser dans un projet logiciel.

Où puis-je obtenir une grande quantité (plusieurs Go serait bien) de texte brut en anglais couvrant un ensemble divers de sujets?

JSideris
la source
3
D'une certaine manière, je pense que vous apprécierez particulièrement ces illustrations
yannis
@Yannis Rizos Ce sont géniaux: D.
JSideris
@Yannis Rizos oh theyre pretty ...
sevenseacat
@YannisRizos Cela a été fermé il y a quelques années. J'ai finalement pu modifier la question afin qu'elle soit un peu plus spécifique et meilleure pour le format QA. Puis-je le faire ouvrir maintenant? (Vous êtes la seule personne sur ce fil qui est toujours un modérateur).
JSideris

Réponses:

19

Vous pouvez utiliser les vidages de données de Wikipedia . Le vidage de données XML pour Wikipedia anglais qui inclut uniquement les révisions actuelles est d'environ 31 Go, donc je dirais que ce serait un bon début pour votre recherche. Le vidage de données est assez important, vous devriez donc envisager d'extraire les textes de XML avec un analyseur SAX. WikiXMLJ est une API Java pratique optimisée pour Wikipedia.

Et puis, bien sûr, il y a toujours les vidages de données Stack Exchange . Le dernier inclut tous les sites Stack Exchange publics non bêta et les sites Meta correspondants jusqu'en septembre 2011. Mais, naturellement, les publications Stack Exchange sont concentrées sur la portée de chaque site, donc probablement pas aussi généralisées que vous le souhaiteriez. Les messages Meta sont un peu plus généraux, vous pouvez donc les considérer en plus de Wikipedia.

Je ne pense pas que vous trouverez mieux, surtout en texte clair. Plusieurs ensembles de données ouverts sont disponibles via le Data Hub , mais je pense que le vidage de données de Wikipedia anglais est très proche de ce que vous recherchez.

yannis
la source
1
ce sont des ressources intéressantes.
hanzolo
Les Stack, bien qu'étendus, vont couvrir un champ de discours très étroit (par nécessité), donc ils peuvent ne pas bien généraliser.
jonsca
Oh mon dieu, ces fichiers sont énormes! Dès que je peux trouver un moyen de les ouvrir et de filtrer toutes les conneries xml, cela devrait fonctionner très bien. Merci!
JSideris
1
@Bizorke Heureux d'avoir pu aider. Lorsque vous avez terminé, vous devez mettre à jour la question avec un lien vers votre recherche.
yannis
5

Google possède une collection d'ensembles de données qu'ils utilisent pour déterminer les probabilités de n grammes. L'examen de leurs ensembles de données bigrammes (2 grammes) devrait vous donner une bonne image. Il existe de nombreux autres corpi pour lesquels ces analyses ont déjà été effectuées.

jonsca
la source
3
J'écrivais juste la même chose.
jcmeloni
@jcmeloni Grands esprits!
jonsca
5

Le projet Gutenberg dispose d'un large corpus de textes en anglais, déjà sous forme de texte.

Project Gutenberg propose plus de 42 000 ebooks gratuits: choisissez parmi les livres epub gratuits, les livres Kindle gratuits, téléchargez-les ou lisez-les en ligne.

Nous proposons des livres électroniques de haute qualité: tous nos livres électroniques ont été publiés par des éditeurs de bonne foi. Nous les avons numérisés et corrigés avec soin avec l'aide de milliers de bénévoles ...

Michael Kohne
la source
1
J'ai pensé au projet Gutenberg mais je n'ai pas trouvé de vidage de données concentré. Et pour qu'un livre soit inclus, son droit d'auteur doit expirer, et généralement cela signifie que 50 à 70 ans se sont écoulés depuis la première publication du livre. Je ne pense donc pas qu'en tant qu'ensemble de données, le projet Gutenberg soit représentatif de la langue utilisée aujourd'hui.
yannis
1
Si vous voulez quelque chose de "représentatif de la langue utilisée aujourd'hui", essayez les commentaires YouTube. Triste mais vrai.
Jörg W Mittag
@ JörgWMittag - aïe. Ce qui me dérange vraiment, c'est à quel point vous ne vous trompez pas.
Michael Kohne
@ Jörg W Mittag C'est possible, mais alors certains mots spécifiques à YouTube reviendraient très fréquemment, comme: YO OU UT TU UB BE, ou pire encore: FA AK KE AN ND GA AY
JSideris
1

Pour les statistiques, vous regardez probablement "Bigram Frequency in the English language". Jetez un oeil à: Wiki-Bigram Stats

quant à la recherche d'un texte volumineux, notez que la fréquence serait biaisée par le type de texte. Par exemple, si vous analysez des adresses, vous obtiendrez des résultats différents de l'analyse des articles de journaux. Si vous voulez simplement tester, vous pouvez utiliser le fichier PDF de n'importe quel livre (mieux vaut ne pas être un livre de mathématiques, de programmation ou médical) et le convertir en texte, puis exécuter vos tests. Vous pouvez également convertir des pages Web de journaux en texte et y travailler.

Aucune chance
la source
2
Oui, je me rends compte que les résultats vont être biaisés. J'ai besoin d'une ressource qui couvre autant de sujets que possible. J'ai envisagé de télécharger un tas d'e-books, le problème principal est de les convertir tous en texte. Mais cela ne ferait pas de mal de rechercher des statistiques sur les bigrammes (je ne savais pas que c'était ainsi que les combinaisons à 2 lettres étaient appelées).
JSideris
Merci pour votre commentaire. Vous pouvez convertir un PDF en texte en utilisant Fichier -> Enregistrer en tant que texte dans le lecteur ADOBE PDF. Ce lien peut également être utile: data-compression.com/english.html
NoChance
@EmmadKareem OP demande plusieurs Go de texte. Suggérez-vous sérieusement qu'il utilise Adobe Reader pour extraire du texte à partir de fichiers PDF?
yannis
@YannisRizos, je n'ai pas remarqué que plusieurs Go étaient obligatoires. Si tel est le cas, il existe de meilleurs outils qui peuvent être utilisés à cette fin. Merci de l'avoir signalé.
NoChance