Quelle est la différence entre un analyseur de circonscription et un analyseur de dépendances ? Quels sont les différents usages des deux?
Un arbre d'analyse de circonscription divise un texte en sous-phrases. Les non-terminaux dans l'arborescence sont des types de phrases, les terminaux sont les mots de la phrase et les bords ne sont pas étiquetés. Pour une phrase simple "John voit Bill", une analyse de circonscription serait:
Sentence
|
+-------------+------------+
| |
Noun Phrase Verb Phrase
| |
John +-------+--------+
| |
Verb Noun Phrase
| |
sees Bill
Une analyse des dépendances relie les mots en fonction de leurs relations. Chaque sommet de l'arborescence représente un mot, les nœuds enfants sont des mots qui dépendent du parent et les arêtes sont étiquetées par la relation. Une analyse de dépendance de «John voit Bill» serait:
sees
|
+--------------+
subject | | object
| |
John Bill
Vous devez utiliser le type d'analyseur qui vous rapproche le plus de votre objectif. Si vous êtes intéressé par des sous-phrases dans la phrase, vous voudrez probablement l'analyse de la circonscription. Si vous êtes intéressé par les relations de dépendance entre les mots, vous souhaiterez probablement l'analyse des dépendances.
L'analyseur de Stanford peut vous donner l'un ou l'autre ( démo en ligne ). En fait, la façon dont cela fonctionne vraiment est de toujours analyser la phrase avec l'analyseur de circonscription, puis, si nécessaire, il effectue une transformation déterministe (basée sur des règles) sur l'arbre d'analyse de circonscription pour la convertir en un arbre de dépendances.
Plus peut être trouvé ici: