J'ai besoin d'un moyen d'extraire le texte de tous les types de documents MS Office (Word, Excel, Powerpoint), sous Linux. J'imagine qu'il pourrait y avoir plusieurs approches différentes pour accomplir cela, comme un script Bash ou Python, ou les convertir en PDF puis extraire le texte à l'aide d'un outil tel que pdftotext.
Cela semble être une exigence courante. Existe-t-il une procédure ou un outil établi pour y parvenir facilement?
J'ai finalement trouvé l'outil parfait pour l'analyse de documents par script, c'est apache-tika, il peut analyser des formats non textuels gazillion en texte qui est très cool!
Obtenez Apache Tika ici:
http://tika.apache.org/
( Les utilisateurs de Mac Homebrew:
brew install tika
)L'interface de ligne de commande fonctionne comme ceci:
tika --text something.docx > something.txt
la source
Abiword peut convertir à partir de la ligne de commande entre tous les formats de fichiers qu'il connaît.
Convertir de Word en texte brut:
abiword --to=txt myfile.doc
Faire un pdf à partir d'un fichier Word:
abiword --to=pdf myfile.doc
Etc. Les résultats dans ces cas seraient myfile.txt ou myfile.pdf. Si vous souhaitez spécifier le nom de sortie, vous pouvez également le faire:
abiword --to=txt --to-name=output.txt myfile.doc
Convertir ODT en Word:
abiword --to=doc myfile.odt
Convertir Word en ODT:
abiword --to=odt myfile.doc
Pour être juste envers les autres réponses, il convient de noter qu'AbiWord utilise wvWare pour gérer les documents Word, mais même la page d'accueil de wvWare recommande d'utiliser AbiWord à la place pour la plupart des conversions.
Je déteste les traitements de texte. C'est la raison principale pour laquelle j'ai installé AbiWord.
Vous pourriez également être intéressé par unoconv , qui est un outil similaire prenant en charge les formats connus par OpenOffice (qui inclurait des feuilles de calcul et autres), mais je n'ai aucune expérience personnelle.
la source
Avec LibreOffice, vous pouvez faire:
la source
Vous pouvez utiliser CUPS (imprimante virtuelle) et en utilisant ld.
la source
wv est une option et IIRC OpenOffice peut être dit à partir de la ligne de commande pour exporter en pdf et quitter.
la source
Si vous souhaitez utiliser Apache Tika dans un projet Python, veuillez consulter cet article de blog .
la source
1.doc catdoc ou antiword pour les fichiers doc à convertir, vous pouvez utiliser la commande suivante catdoc file.doc> file ou antiword file.doc> file
docx docx2txt
pdf emacs file.pdf ctrl-x fichier ctrl-s
la source
Docsplit est l'outil parfait pour extraire le texte du pdf. C'est un bijou rubis. Vous devez donc installer ruby et gem dans votre système linux avant d'utiliser la commande docsplit.
Si votre système n'avait ni rubis ni gemme, veuillez suivre les instructions.
Vous devez être root pour installer le logiciel (en supposant que vous souhaitiez qu'il soit disponible pour tous les utilisateurs).
Installez le ruby sur linux: yum install ruby
Installez le gem, veuillez télécharger le dernier package gem, puis suivez les instructions
tar xzf rubygems-xxxx.tgz
cd rubygems-xxxx
ruby setup.rb
Maintenant que RubyGems est installé, vous devriez avoir la commande gem (gem est la commande utilisée pour interagir avec le système de package RubyGems). Testez-le en exécutant:
liste de gemmes
Maintenant, passez à l'étape suivante, pour installer la gemme docsplit, veuillez vous rendre sur le site suivant. http://documentcloud.github.com/docsplit/
la source