D'où viennent les mots dans / usr / share / dict / words?

10

/usr/share/dict/wordscontient beaucoup de mots. Comment cette liste est-elle générée? Son contenu est-il le même sur différents Unices? Existe-t-il une norme dictant ce qu'elle doit contenir?

Tout ce que j'ai pu trouver jusqu'à présent, c'est que sur Ubuntu / Debian, la liste provient des paquets de listes de mots , mais leurs descriptions n'offrent aucune indication sur la façon dont les listes ont été générées.

Mark Amery
la source

Réponses:

10

Vous posez plusieurs questions, mais je pense que la principale est:

Existe-t-il une norme dictant ce qu'elle doit contenir?

À ma connaissance, non.

Compte tenu de cela, vos questions connexes:

Comment cette liste est-elle générée? Son contenu est-il le même sur différents Unices?

on répond "ça dépend de chaque Unix différent".

La convention d'inclure une liste de mots dans le système d'exploitation vient de l' spell(1)utilitaire , qui l'utilise pour une procédure de vérification orthographique primitive.

Cette procédure de vérification orthographique est décrite dans l'article académique «Développement d'une liste d'orthographe», par MD McIlroy des Bell Labs, 1982 .

Vous devez vérifier le gestionnaire de packages de votre système d'exploitation pour savoir d'où vient la liste d'orthographe, comment elle est générée et quelles alternatives sont disponibles.

Sur Debian GNU + Linux, par exemple:

  • Le /usr/share/dict/wordsfichier est un lien symbolique géré à l'aide du système «alternatif» Debian.
  • Un package de liste de mots commun fournissant ce lien est le wamericanpackage.
  • La documentation du package pour les wamericanétats de sa liste de mots provient du projet SCOWL (Spell Checker Oriented Word Lists) .

De nombreux autres packages de liste de mots peuvent être installés; ils ont chacun le champ «Fournit: liste de mots»:

$ aptitude search '?provides(wordlist)' | wc -l
34

Sur différents Unices, vous devrez voir le système de package et la documentation pour connaître la provenance et les alternatives de la liste de mots.

gros nez
la source
2
FWIW: Sur une installation minimale de Centos 7 x64 (où le fichier de mots est absent), a yum install wordsfait l'affaire pour moi.
Wossname