Sources de liste de mots

11

Je recherche une source de noms, adverbes, adjectifs et verbes en plusieurs langues.

Je voudrais que les listes soient déjà séparées, et ne pas avoir à passer par l' OED (et les équivalents non anglais) à la main en recréant lesdites listes.

Je ne me soucie pas vraiment des définitions, et je comprends que certains mots peuvent être de multiples parties du discours - c'est bien - des mots comme "beaucoup" pourraient être un nom ou un adjectif, et peuvent apparaître dans les deux listes.

Quelqu'un ici connaît-il une telle source? Sinon, quelqu'un pourrait-il m'orienter dans la bonne direction?

Je suis d'accord avec le format étant l'un des suivants (ou similaire si les gens ont des idées):

  • csv: <word>, noun (y/n), verb (y/n), adverb (y/n), adjective (y/n)
  • fichiers en texte brut comme "noms", "verbes", etc.
  • une table mysql
  • etc
garenne
la source

Réponses:

8

J'ai utilisé WordNet de l'Université de Princeton pour certains projets. Il s'agit d'une base de données lexicale en anglais. Global WordNet est une extension du projet essayant de faire de même pour toutes les langues.

Vous pourriez également être intéressé par des projets connexes sur http://wordnet.princeton.edu/wordnet/related-projects/

teknikqa
la source
1
WordNet est la voie à suivre. Tous les meilleurs chercheurs l'utilisent.
Ritwik Bose
4

Cela peut ne pas aider du tout, je ne sais pas. Mais MediaWiki a une API pour lister toutes les pages appartenant à une certaine catégorie. Vous pouvez essayer de l'utiliser sur Wiktionary.org.

Remarques:

  • Chaque requête ne renvoie que 500 résultats. Cependant, à la fin, il spécifie également un paramètre à utiliser dans une autre requête pour obtenir les 500 résultats suivants.
  • Il comprend tout dans la catégorie spécifiée, même d'autres sous-catégories.
  • Les résultats semblent être classés par ordre alphabétique, bien que tout commençant par une lettre majuscule passe avant tout en minuscules.

Exemples:

J'espère que cela vous aidera, c'est ce que je pourrais trouver.

Matt Blaine
la source
1

Je soutiendrai la suggestion de @ teknikqa de wordnet, mais je vous suggère de vérifier leurs API;

HISTOIRE : J'ai suivi un cours d'IA qui comprenait une partie d'analyse linguistique; J'ai utilisé les API Perl de Wordnet pour rechercher automatiquement les trois principaux types de définition et classer le phrasé à partir de celui-ci en temps quasi- FIN DE L'HISTOIRE

Il existe des API pour de nombreuses langues

FYI: Le projet a obtenu un A +

Andrew Bolster
la source