Grep dans Microsoft Word?
Je voudrais extraire toutes les lignes d'une chaîne donnée d'un document Word. Dans le monde Unix ... grep le fait sans problème. Windows est moins qu'évident pour moi.
microsoft-word
grep
fretje
la source
la source
catdoc
segfaults sur chaque fichier.doc
/.docx
je lui donne, etantiword
me dit juste que mon document "n'est pas un document Word". Connaissez-vous d'autres options?docx2txt
existe dans les référentiels Debian - pourrait fonctionner. J'examinerais également l'utilitaire de conversion de format de ligne de commande OpenOffice / LibreOffice (unoconv), qui pourrait être utilisé dans le même but.Je sais que cela semble primitif, mais qu'est-ce qui vous empêche d'enregistrer le fichier au format .txt et de le déchirer à votre convenance.
la source
Que signifie «ligne» dans un contexte Word? La ligne affichée, qui change si vous faites quoi que ce soit au formatage de la page? Le paragraphe? Autre chose?
Vous pouvez faire beaucoup de choses avec les fonctions de recherche et de remplacement de Word, y compris la modification de la mise en forme et d'autres choses non évidentes, mais toutes n'agiront que sur le texte de recherche lui-même, pas sur le texte environnant.
la source
Il existe un support pour les documents MS - Word, PowerPoint, Excel - dans CRGREP que j'ai développé comme un outil open source gratuit. Il accueille également d'autres éléments difficiles à rechercher, tels que les tables de base de données, les images, l'audio, les archives, les PDF et leurs combinaisons. S'amuser.
la source
PowerGREP fera exactement cela pour vous, et rapidement - mais pas gratuitement. Cela vaut chaque centime, à mon avis. De plus, il y a un essai gratuit de 30 jours.
la source
Pas assez de représentants pour commenter, mais je peux voir ce problème doc vs docx discuté, donc toute personne poursuivant le fil (comme moi) peut trouver cela utile.
Vous n'avez pas besoin d'un outil spécial pour les fichiers docx. docx sont des fichiers XML zippés.
Pour extraire et supprimer le XML, essayez quelque chose basé sur
à partir de la ligne de commande fu
la source
Solution rapide, gratuite, open source et multiplateforme: https://github.com/phiresky/ripgrep-all
la source