Extraire les parties les plus informatives du texte des documents

16

Y a-t-il des articles ou des discussions sur l'extraction d'une partie du texte qui contient le plus d'informations sur le document actuel.

Par exemple, j'ai un grand corpus de documents du même domaine. Certaines parties du texte contiennent les informations clés dont parle un seul document. Je veux extraire certaines de ces parties et les utiliser comme une sorte de résumé du texte. Existe-t-il une documentation utile sur la façon de réaliser quelque chose comme ça.

Il serait vraiment utile que quelqu'un puisse m'orienter dans la bonne direction ce que je devrais rechercher ou lire pour avoir un aperçu du travail qui aurait déjà été fait dans ce domaine du traitement du langage naturel.

MaticDiba
la source

Réponses:

23

Ce que vous décrivez est souvent réalisé en utilisant une simple combinaison de TF-IDF et de résumé extractif .

En un mot, TF-IDF vous indique l'importance relative de chaque mot dans chaque document, par rapport au reste de votre corpus. À ce stade, vous avez un score pour chaque mot dans chaque document approximant son «importance». Ensuite, vous pouvez utiliser ces scores de mots individuels pour calculer un score composite pour chaque phrase en additionnant les scores de chaque mot dans chaque phrase. Enfin, il suffit de prendre les phrases de notation les plus N de chaque document comme résumé.

Plus tôt cette année, j'ai mis au point un bloc-notes iPython qui culmine avec une implémentation de cela en Python en utilisant NLTK et Scikit-learn: A Smattering of NLP in Python .

Charlie Greenbacker
la source
2
Oui, ce serait probablement ça. Je pourrais également ajouter des poids supplémentaires à certains mots, que je connais déjà et qui sont informatifs. Merci pour votre aide et vos liens utiles.
MaticDiba
Puis-je l'utiliser sur un pdf? :)
Adam
Oui, vous pouvez l'utiliser sur le texte d'un PDF, en supposant que vous avez déjà extrait le texte brut du PDF en utilisant quelque chose comme pdftotext.
Charlie Greenbacker le
1

Beaucoup de techniques d'extraction de mots clés dépendent de facteurs tels que:

  1. Qualité grammaticale du texte
  2. Longueur du texte
  3. Que vous recherchiez un seul mot-clé ou un mot-clé, etc.

Mais en général, si vous avez un long texte et que vous souhaitez en extraire automatiquement des mots clés, je vous recommande de parcourir les articles suivants:

  1. TextRank

  2. RAKE [Extraction automatique rapide de mots clés]

  3. Topica

Aussi pour extraire des mots clés personnalisés (spéciaux) qui ne passent pas par les techniques ci-dessus, consultez le post ci-dessous:

Extraire des mots clés personnalisés à l'aide du tagueur NLTK POS en python

anindya
la source