Je recherche une source de noms, adverbes, adjectifs et verbes en plusieurs langues.
Je voudrais que les listes soient déjà séparées, et ne pas avoir à passer par l' OED (et les équivalents non anglais) à la main en recréant lesdites listes.
Je ne me soucie pas vraiment des définitions, et je comprends que certains mots peuvent être de multiples parties du discours - c'est bien - des mots comme "beaucoup" pourraient être un nom ou un adjectif, et peuvent apparaître dans les deux listes.
Quelqu'un ici connaît-il une telle source? Sinon, quelqu'un pourrait-il m'orienter dans la bonne direction?
Je suis d'accord avec le format étant l'un des suivants (ou similaire si les gens ont des idées):
- csv:
<word>, noun (y/n), verb (y/n), adverb (y/n), adjective (y/n)
- fichiers en texte brut comme "noms", "verbes", etc.
- une table mysql
- etc
Réponses:
J'ai utilisé WordNet de l'Université de Princeton pour certains projets. Il s'agit d'une base de données lexicale en anglais. Global WordNet est une extension du projet essayant de faire de même pour toutes les langues.
Vous pourriez également être intéressé par des projets connexes sur http://wordnet.princeton.edu/wordnet/related-projects/
la source
Cela peut ne pas aider du tout, je ne sais pas. Mais MediaWiki a une API pour lister toutes les pages appartenant à une certaine catégorie. Vous pouvez essayer de l'utiliser sur Wiktionary.org.
Remarques:
Exemples:
J'espère que cela vous aidera, c'est ce que je pourrais trouver.
la source
Je soutiendrai la suggestion de @ teknikqa de wordnet, mais je vous suggère de vérifier leurs API;
HISTOIRE : J'ai suivi un cours d'IA qui comprenait une partie d'analyse linguistique; J'ai utilisé les API Perl de Wordnet pour rechercher automatiquement les trois principaux types de définition et classer le phrasé à partir de celui-ci en temps quasi- FIN DE L'HISTOIRE
Il existe des API pour de nombreuses langues
FYI: Le projet a obtenu un A +
la source