Y a-t-il des articles ou des discussions sur l'extraction d'une partie du texte qui contient le plus d'informations sur le document actuel.
Par exemple, j'ai un grand corpus de documents du même domaine. Certaines parties du texte contiennent les informations clés dont parle un seul document. Je veux extraire certaines de ces parties et les utiliser comme une sorte de résumé du texte. Existe-t-il une documentation utile sur la façon de réaliser quelque chose comme ça.
Il serait vraiment utile que quelqu'un puisse m'orienter dans la bonne direction ce que je devrais rechercher ou lire pour avoir un aperçu du travail qui aurait déjà été fait dans ce domaine du traitement du langage naturel.
la source
Beaucoup de techniques d'extraction de mots clés dépendent de facteurs tels que:
Mais en général, si vous avez un long texte et que vous souhaitez en extraire automatiquement des mots clés, je vous recommande de parcourir les articles suivants:
TextRank
RAKE [Extraction automatique rapide de mots clés]
Topica
Aussi pour extraire des mots clés personnalisés (spéciaux) qui ne passent pas par les techniques ci-dessus, consultez le post ci-dessous:
Extraire des mots clés personnalisés à l'aide du tagueur NLTK POS en python
la source