Extraction de mots-clés / phrases à partir de texte à l'aide de bibliothèques Deep Learning

20

C'est peut-être trop large, mais je cherche des références sur la façon d'utiliser l'apprentissage en profondeur dans une tâche de résumé de texte.

J'ai déjà mis en œuvre une synthèse de texte à l'aide d'approches de fréquence de mots et de classement de phrases standard, mais j'aimerais explorer la possibilité d'utiliser des techniques d'apprentissage approfondi pour cette tâche. J'ai également passé en revue certaines implémentations données sur wildml.com en utilisant des réseaux neuronaux convolutionnels (CNN) pour l'analyse des sentiments; J'aimerais savoir comment utiliser des bibliothèques telles que TensorFlow ou Theano pour la synthèse de texte et l'extraction de mots clés. Cela fait environ une semaine que j'ai commencé à expérimenter avec les réseaux neuronaux, et je suis vraiment excité de voir comment les performances de ces bibliothèques se comparent à mes approches précédentes de ce problème.

Je suis particulièrement à la recherche de quelques articles et projets github intéressants liés à la synthèse de texte en utilisant ces cadres. Quelqu'un peut-il me fournir des références?

shanky_thebearer
la source

Réponses:

15

Le blog Google Research devrait être utile dans le contexte de TensorFlow .

Dans l'article ci-dessus, il y a une référence à l' ensemble de données Annotated English Gigaword qui est couramment utilisé pour la synthèse de texte.

Le document de 2014 de Sutskever et al intitulé Sequence to Sequence Learning with Neural Networks pourrait être un début significatif dans votre cheminement car il s'avère que pour les textes plus courts, la synthèse peut être apprise de bout en bout avec une technique d'apprentissage en profondeur.

Enfin, voici un excellent référentiel Github démontrant la synthèse de texte tout en utilisant TensorFlow.

Société des scientifiques des données
la source
16

Il s'agit d'un domaine de recherche ouvert et cela dépend certainement de la façon dont vous formulez le problème. Si vous parlez de récapitulation multi-document, le problème est légèrement différent que si vous parliez de récapitulation de document unique.

Il vaut la peine de passer brièvement en revue la littérature.

Le lien fourni par u / Society Of Data Scientists est excellent et il est utile pour la tâche de récapitulation abstractive sur un seul document. Il existe également des travaux sur les résumés d' extraction , qui identifient les phrases importantes à extraire.

Rush et. al a un beau papier sur la synthèse abstractive avec Attention , qui est basé sur l'apprentissage en profondeur.

Pour une synthèse extractive, vous pouvez utiliser un LSTM pour créer votre classificateur et utiliser les bibliothèques TensorFlow / Torch standard, mais il ne semble pas y avoir de publications actuelles sur l'utilisation du deep learning pour cette approche.

Voici quelques dépôts GitHub supplémentaires:

franciscojavierarceo
la source
Merci @franciscojavierarceo. Je vais examiner les articles mentionnés ci-dessus.
shanky_thebearer