Comment trouver une liste avec toutes les balises POS possibles utilisées par le Natural Language Toolkit (nltk)?
141
Le livre contient une note sur la façon de trouver de l'aide sur les ensembles de balises, par exemple:
nltk.help.upenn_tagset()
D'autres sont probablement similaires. (Remarque: vous devez peut-être d'abord télécharger à tagsets
partir de la section Modèles de l'assistant de téléchargement pour cela)
RB
leur significationadverb
. ( Voici un exemple ; ou voir la réponse de @ Suzana, qui relie l' ensemble de balises Penn Treebank ). Mais vous avez raison, le builtinnltk.help.upenn_tagset('RB')
est utile, et mentionné au début dunltk
livre ,Pour faire gagner du temps à certains, voici une liste que j'ai extraite d'un petit corpus. Je ne sais pas s'il est complet, mais il devrait avoir la plupart (sinon la totalité) des définitions d'aide de upenn_tagset ...
CC : conjonction, coordination
CD : chiffre, cardinal
DT : déterminant
EX : existentiel là-bas
IN : préposition ou conjonction, subordonnant
JJ : adjectif ou chiffre, ordinal
JJR : adjectif, comparatif
JJS : adjectif, superlatif
LS : marqueur d'élément de liste
MD : auxiliaire modal
NN : nom, commun, singulier ou masse
NNP : nom, propre, singulier
NNS : nom, commun, pluriel
PDT : pré-déterminant
POS : marqueur génitif
PRP : pronom, personnel
PRP $: pronom, possessif
RB : adverbe
RBR : adverbe, comparatif
RBS : adverbe, superlatif
RP : particule
TO : "to" comme préposition ou marqueur infinitif
UH : interjection
VB : verbe, forme de base
VBD : verbe, passé
VBG : verbe, participe présent ou gérondif
VBN : verbe, participe passé
VBP : verbe, présent, pas 3ème personne du singulier
VBZ : verbe, présent, 3e personne du singulier
WDT : déterminant WH
WP : pronom WH
WRB : Wh-adverbe
la source
$
,''
,(
,)
,,
,--
,.
,:
,FW
,NNPS
,SYM
,WP$
, [deux] accents graves. Voirnltk.help.upenn_tagset()
.L'ensemble de balises dépend du corpus utilisé pour former le tagueur. Le tagueur par défaut
nltk.pos_tag()
utilise le jeu de balises Penn Treebank .Dans NLTK 2, vous pouvez vérifier quel tagger est le tagger par défaut comme suit:
Cela signifie qu'il s'agit d'un tagueur d'entropie maximum formé sur le corpus Treebank.
nltk.tag._POS_TAGGER
n'existe plus dans NLTK 3 mais la documentation indique que le tagger standard utilise toujours le jeu de tags Penn Treebank.la source
nltk.tag._POS_TAGGER
ne s'exécute pas et aucune instruction spécifique n'est fournie sur ce qu'il faut importer. En outre, découvrir le tagueur utilisé est la moitié de la réponse, la question demande d'obtenir une liste de toutes les balises possibles dans le taggerCe qui suit peut être utile pour accéder à un dict saisi par des abréviations:
la source
La référence est disponible sur le site officiel
Copier et coller à partir de là:
la source
Vous pouvez télécharger la liste ici: ftp://ftp.cis.upenn.edu/pub/treebank/doc/tagguide.ps.gz . Il comprend des parties de discours déroutantes, la capitalisation et d'autres conventions. En outre, wikipedia a une section intéressante similaire à celle-ci. Section: Balises de partie de discours utilisées.
la source
Basé sur la méthode de Doug Shore mais le rendre plus convivial pour le copier-coller
la source
Exécutez simplement ce mot à mot.
nltk.tag._POS_TAGGER
ne fonctionnera pas. Cela donnera AttributeError: le module 'nltk.tag' n'a pas d'attribut '_POS_TAGGER' . Il n'est plus disponible dans NLTK 3.la source