Identification des événements liés aux dates dans un paragraphe

13

Existe-t-il une approche algorithmique pour identifier les dates données dans un paragraphe en corrélation avec des événements (phrases) particuliers dans le paragraphe?

Exemple, considérons le paragraphe suivant:

En juin 1970, le grand chef prête serment. Mais ce n'est qu'après mai 1972, après la mort du ministre d'État, qu'il prend les rênes du pays. Bien qu'il ait bénéficié du soutien populaire jusqu'au milieu des années 1980, son influence a commencé à diminuer par la suite.

Existe-t-il un algorithme (déterministe ou stochastique) # qui peut générer un 2-tuple (date, événement), où l' événement est implicite, par le paragraphe, d'avoir eu lieu à la date ? Dans le cas ci-dessus:

  • (Juin 1970, un grand leader a prêté serment)
  • (Mai 1972, prend les rênes)

    ou mieux encore

  • (Mai 1972, le grand leader reprend les rênes)
  • (1980, chute d'influence)

# Plus tard

check123
la source
2
Ce problème semble contenir trois phases: 1) extraire les dates, 2) extraire les événements et 3) corréler les deux ensembles de données. 1) est certainement faisable et je peux imaginer une heuristique décente pour 3), mais comment comptez-vous résoudre 2)?
Raphael
1
@Raphael Belle reformulation de ma question!
check123
Eh bien, avez - vous des informations concernant 2), par exemple un ensemble restreint d'événements intéressants (par exemple des mots)? Voulez-vous extraire toutes les paires nom / verbe tant qu'elles ont une date?
Raphael
Voulez-vous également extraire des délais? Dans votre exemple, considérez (<= May 1972, death of the Minister of State)ou (<= Mid-1980, [the great leader] enjoyed popular support).
Raphael
@Raphael Désolé pour la réponse (très) tardive. Concernant 2) Non. J'essaie une approche généralisée.
check123

Réponses:

4

En général, le problème de l'identification des dates et d'autres marqueurs temporels dans le texte est appelé le problème de l' extraction des références temporelles . La recherche liée vous amènera à des articles liés à cela.

Suresh
la source
Je ne savais pas que le problème avait un nom. Va chercher plus à ce sujet et voir si je peux trouver quelque chose de valable. :)
check123
2

Puisque vous demandez une approche algorithmique, je serai aussi têtu qu'un algorithme. Je suis désolé de traiter cette question comme ceci, mais comme cela ne semble pas être un problème théorique complexe, je vais synthétiser les approches possibles.

Question: pouvez-vous me donner une définition algorithmique d'une date et d'un événement particulier?

Si vous le pouvez: Étant donné que votre définition est algorithmique, il s'agit probablement d'une sorte de grammaire formelle , et votre problème sera de régler cette grammaire pour prendre en compte tous les cas que vous devez prendre en compte. (Je suis intéressé si vous pouvez me donner une définition exacte qui n'est pas une grammaire formelle)

Si vous ne pouvez pas: alors au moins vous pouvez trouver des exemples. Très bien alors. La meilleure approche - et je ne peux que l'imaginer - est celle des algorithmes d'apprentissage automatique, que vous devrez vous entraîner afin de reconnaître vos dates puis vos événements. (Utilisation d'un corpus de phrases annotées à la main) Cependant, cela est assez exagéré par rapport à une grande expression rationnelle faite à la main qui fera probablement le travail. Si vous voulez vraiment, vraiment le faire, je pense que le plus efficace sera ce type d'expression régulière donné en paramètre à l'algorithme d'apprentissage, mais vous feriez mieux de demander à des experts en apprentissage automatique.

Bonne chance avec ça, c'est beaucoup plus simple d'en parler (dans les deux cas).

jmad
la source
1
Cela dit, je pense que combinant dates et événements sans aucun doute besoin de quelques modèles stochastiques.
Raphael
Dates dans la plupart des formats que je peux capturer en utilisant regexp. Avec une logique de programmation, je peux extraire les phrases autour des dates. Le problème est alors que j'ai besoin d'un modèle ou d'une distribution de probabilité que lorsqu'un modèle de phrase particulier, Ex.: Le chat a mangé la souris le 25 août. [<article> <noun> <verb> <article> <noun> <preposition> <date>], apparaît alors un (sous) ensemble du motif, Le chat a mangé la souris (dans notre cas), correspond à la date y (25 août) avec probabilité z.
check123
@jmad Si cela ne vous dérange pas, pourriez-vous ajuster la mise en forme de votre message? Utiliser le style de citation pour une non-citation (ou une auto-citation?) Est plutôt déroutant.
uli