Je dois développer un moteur de recherche basé sur la fréquence des termes du document. J'ai un jeu de données de 17 000 documents PDF. Existe-t-il un moyen de compter tous les mots et leurs occurrences dans un document particulier?
Exemple: Souhaitez-vous avoir des réponses?
Sortie: Aurait = 1 vous = 1 comme = 1 à = 2 réponses = 1
Réponses:
Le problème général de
get text from a PDF
est plus compliqué qu'il n'y paraît. Une fois que vous avez résolu ce problème à votre satisfaction, le problème consiste simplement à déterminer la fréquence des termes dans un groupe de fichiers texte. Vous devriez être capable de le mettre en œuvre directement ou d’obtenir des conseils sur le stackoverflow.Pour obtenir du texte à partir d'un fichier PDF, vous devez tenir compte de la manière dont les données sont structurées dans un fichier PDF.
"Texte" peut être l'un des éléments suivants dans un fichier PDF:
Si tous vos fichiers PDF source adhèrent à une structure similaire ou ont été créés à l'aide du même programme, il devrait être facile de créer un programme permettant d'analyser avec précision la structure et d'extraire le texte de manière semi-fiable. Cependant ... si vos fichiers PDF proviennent d'auteurs et de tiers différents dont vous ne contrôlez pas la production, il pourrait être un peu plus compliqué.
Les techniques suivantes peuvent s'appliquer à l'extraction de texte à partir de PDF:
Donc, votre approche devrait ressembler à ceci:
la source