Comment extraire le texte de sites Web

Je recherche un moyen d'automatiser l'extraction de texte de plusieurs sites Web vers un document Word. Une fois collé dans le mot doc, il me faut coller avec "fusionner le formatage". Voici comment je voudrais que le texte extrait se termine après avoir été collé dans le mot doc - Exemple

J'ai besoin de l'extracteur de texte pour extraire uniquement le texte commençant par le titre de chapitre "Livre 1, Chapitre 1 - Tôt le matin dans un canton" jusqu'à la fin du chapitre où il est indiqué "chapitre précédent" mais n'incluant pas "chapitre précédent". J'en ai ensuite besoin pour passer au chapitre suivant jusqu'à la fin du livre 21, chapitre 44.

Enroulé Dragon: Livre 1 - Chapitre 1 aller jusqu'à Enroulement Dragon: Livre 21 - Chapitre 44

microsoft-word parsing web-crawler Woz
la source

les sites Web SONT du texte (balisage) afin que vous cherchiez un analyseur. pour un site HTML simple, un analyseur XML générique peut être utilisé pour extraire les corps d'éléments, mais vous devrez écrire du code de script pour gérer l'accumulation de texte, le filtrage, la copie et le collage. pour les sites plus complexes qui génèrent des serveurs de contenu dynamique ou dans des scripts client, cela peut s'avérer un peu plus difficile. Bonne chance.

Frank Thomas

Quel code avez-vous jusqu'à présent?

Burgi

Je n'ai pas encore de code écrit pour cela, pour être honnête, je ne sais même pas comment écrire du code pour les scripts. Quelqu'un a-t-il une suggestion pour un analyseur XML?

Woz

@Wozzie Honnêtement, vous pouvez le faire en utilisant le mot assez facilement en utilisant vba.

BigElittles