Lecture de documents PDF dans .Net [fermé]

88

Existe-t-il une bibliothèque open source qui m'aidera à lire / analyser des documents PDF en .Net / C #?

JRoppert
la source
1
La réponse fournie par Brock Nusser ressemble à la solution la plus à jour et devrait être considérée comme la bonne réponse à cette question
ceetheman
Des réponses iTextSharp plus mises à jour ici puisque cette question est fermée.
VDWWD le

Réponses:

116

Depuis la dernière réponse à cette question en 2008, iTextSharp a considérablement amélioré son API. Si vous téléchargez la dernière version de leur API à partir de http://sourceforge.net/projects/itextsharp/ , vous pouvez utiliser l'extrait de code suivant pour extraire tout le texte d'un pdf dans une chaîne.

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;

namespace PdfParser
{
    public static class PdfTextExtractor
    {
        public static string pdfText(string path)
        {
            PdfReader reader = new PdfReader(path);
            string text = string.Empty;
            for(int page = 1; page <= reader.NumberOfPages; page++)
            {
                text += PdfTextExtractor.GetTextFromPage(reader,page);
            }
            reader.Close();
            return text;
        }   
    }
}
Brock Nusser
la source
17
Vous ne devriez probablement pas appeler votre classe PdfTextExtractorcar elle entrera en conflit avec celle deiTextSharp.text.pdf.parser
Neil
2
iTextSharp a déménagé sur GitHub: github.com/itext/itextsharp
Amedee Van Gasse
1
peut-être que ceux qui ont répondu ici pourraient aider ici ?
Veverke
6
Il est désormais payé pour les projets commerciaux.
Nikolay Kostov
1
@iTextSharp a été obsolète et remplacé par iText 7 github.com/itext/itext7-dotnet .
Matthieu le
62

iTextSharp est le meilleur pari. Je l'ai utilisé pour créer une araignée pour lucene.Net afin qu'il puisse explorer le PDF.

using System;
using System.IO;
using iTextSharp.text.pdf;
using System.Text.RegularExpressions;

namespace Spider.Utils
{
    /// <summary>
    /// Parses a PDF file and extracts the text from it.
    /// </summary>
    public class PDFParser
    {
        /// BT = Beginning of a text object operator 
        /// ET = End of a text object operator
        /// Td move to the start of next line
        ///  5 Ts = superscript
        /// -5 Ts = subscript

        #region Fields

        #region _numberOfCharsToKeep
        /// <summary>
        /// The number of characters to keep, when extracting text.
        /// </summary>
        private static int _numberOfCharsToKeep = 15;
        #endregion

        #endregion

        #region ExtractText
        /// <summary>
        /// Extracts a text from a PDF file.
        /// </summary>
        /// <param name="inFileName">the full path to the pdf file.</param>
        /// <param name="outFileName">the output file name.</param>
        /// <returns>the extracted text</returns>
        public bool ExtractText(string inFileName, string outFileName)
        {
            StreamWriter outFile = null;
            try
            {
                // Create a reader for the given PDF file
                PdfReader reader = new PdfReader(inFileName);
                //outFile = File.CreateText(outFileName);
                outFile = new StreamWriter(outFileName, false, System.Text.Encoding.UTF8);

                Console.Write("Processing: ");

                int totalLen = 68;
                float charUnit = ((float)totalLen) / (float)reader.NumberOfPages;
                int totalWritten = 0;
                float curUnit = 0;

                for (int page = 1; page <= reader.NumberOfPages; page++)
                {
                    outFile.Write(ExtractTextFromPDFBytes(reader.GetPageContent(page)) + " ");

                    // Write the progress.
                    if (charUnit >= 1.0f)
                    {
                        for (int i = 0; i < (int)charUnit; i++)
                        {
                            Console.Write("#");
                            totalWritten++;
                        }
                    }
                    else
                    {
                        curUnit += charUnit;
                        if (curUnit >= 1.0f)
                        {
                            for (int i = 0; i < (int)curUnit; i++)
                            {
                                Console.Write("#");
                                totalWritten++;
                            }
                            curUnit = 0;
                        }

                    }
                }

                if (totalWritten < totalLen)
                {
                    for (int i = 0; i < (totalLen - totalWritten); i++)
                    {
                        Console.Write("#");
                    }
                }
                return true;
            }
            catch
            {
                return false;
            }
            finally
            {
                if (outFile != null) outFile.Close();
            }
        }
        #endregion

        #region ExtractTextFromPDFBytes
        /// <summary>
        /// This method processes an uncompressed Adobe (text) object 
        /// and extracts text.
        /// </summary>
        /// <param name="input">uncompressed</param>
        /// <returns></returns>
        public string ExtractTextFromPDFBytes(byte[] input)
        {
            if (input == null || input.Length == 0) return "";

            try
            {
                string resultString = "";

                // Flag showing if we are we currently inside a text object
                bool inTextObject = false;

                // Flag showing if the next character is literal 
                // e.g. '\\' to get a '\' character or '\(' to get '('
                bool nextLiteral = false;

                // () Bracket nesting level. Text appears inside ()
                int bracketDepth = 0;

                // Keep previous chars to get extract numbers etc.:
                char[] previousCharacters = new char[_numberOfCharsToKeep];
                for (int j = 0; j < _numberOfCharsToKeep; j++) previousCharacters[j] = ' ';


                for (int i = 0; i < input.Length; i++)
                {
                    char c = (char)input[i];
                    if (input[i] == 213)
                        c = "'".ToCharArray()[0];

                    if (inTextObject)
                    {
                        // Position the text
                        if (bracketDepth == 0)
                        {
                            if (CheckToken(new string[] { "TD", "Td" }, previousCharacters))
                            {
                                resultString += "\n\r";
                            }
                            else
                            {
                                if (CheckToken(new string[] { "'", "T*", "\"" }, previousCharacters))
                                {
                                    resultString += "\n";
                                }
                                else
                                {
                                    if (CheckToken(new string[] { "Tj" }, previousCharacters))
                                    {
                                        resultString += " ";
                                    }
                                }
                            }
                        }

                        // End of a text object, also go to a new line.
                        if (bracketDepth == 0 &&
                            CheckToken(new string[] { "ET" }, previousCharacters))
                        {

                            inTextObject = false;
                            resultString += " ";
                        }
                        else
                        {
                            // Start outputting text
                            if ((c == '(') && (bracketDepth == 0) && (!nextLiteral))
                            {
                                bracketDepth = 1;
                            }
                            else
                            {
                                // Stop outputting text
                                if ((c == ')') && (bracketDepth == 1) && (!nextLiteral))
                                {
                                    bracketDepth = 0;
                                }
                                else
                                {
                                    // Just a normal text character:
                                    if (bracketDepth == 1)
                                    {
                                        // Only print out next character no matter what. 
                                        // Do not interpret.
                                        if (c == '\\' && !nextLiteral)
                                        {
                                            resultString += c.ToString();
                                            nextLiteral = true;
                                        }
                                        else
                                        {
                                            if (((c >= ' ') && (c <= '~')) ||
                                                ((c >= 128) && (c < 255)))
                                            {
                                                resultString += c.ToString();
                                            }

                                            nextLiteral = false;
                                        }
                                    }
                                }
                            }
                        }
                    }

                    // Store the recent characters for 
                    // when we have to go back for a checking
                    for (int j = 0; j < _numberOfCharsToKeep - 1; j++)
                    {
                        previousCharacters[j] = previousCharacters[j + 1];
                    }
                    previousCharacters[_numberOfCharsToKeep - 1] = c;

                    // Start of a text object
                    if (!inTextObject && CheckToken(new string[] { "BT" }, previousCharacters))
                    {
                        inTextObject = true;
                    }
                }

                return CleanupContent(resultString);
            }
            catch
            {
                return "";
            }
        }

        private string CleanupContent(string text)
        {
            string[] patterns = { @"\\\(", @"\\\)", @"\\226", @"\\222", @"\\223", @"\\224", @"\\340", @"\\342", @"\\344", @"\\300", @"\\302", @"\\304", @"\\351", @"\\350", @"\\352", @"\\353", @"\\311", @"\\310", @"\\312", @"\\313", @"\\362", @"\\364", @"\\366", @"\\322", @"\\324", @"\\326", @"\\354", @"\\356", @"\\357", @"\\314", @"\\316", @"\\317", @"\\347", @"\\307", @"\\371", @"\\373", @"\\374", @"\\331", @"\\333", @"\\334", @"\\256", @"\\231", @"\\253", @"\\273", @"\\251", @"\\221"};
            string[] replace = {   "(",     ")",      "-",     "'",      "\"",      "\"",    "à",      "â",      "ä",      "À",      "Â",      "Ä",      "é",      "è",      "ê",      "ë",      "É",      "È",      "Ê",      "Ë",      "ò",      "ô",      "ö",      "Ò",      "Ô",      "Ö",      "ì",      "î",      "ï",      "Ì",      "Î",      "Ï",      "ç",      "Ç",      "ù",      "û",      "ü",      "Ù",      "Û",      "Ü",      "®",      "™",      "«",      "»",      "©",      "'" };

            for (int i = 0; i < patterns.Length; i++)
            {
                string regExPattern = patterns[i];
                Regex regex = new Regex(regExPattern, RegexOptions.IgnoreCase);
                text = regex.Replace(text, replace[i]);
            }

            return text;
        }

        #endregion

        #region CheckToken
        /// <summary>
        /// Check if a certain 2 character token just came along (e.g. BT)
        /// </summary>
        /// <param name="tokens">the searched token</param>
        /// <param name="recent">the recent character array</param>
        /// <returns></returns>
        private bool CheckToken(string[] tokens, char[] recent)
        {
            foreach (string token in tokens)
            {
                if ((recent[_numberOfCharsToKeep - 3] == token[0]) &&
                    (recent[_numberOfCharsToKeep - 2] == token[1]) &&
                    ((recent[_numberOfCharsToKeep - 1] == ' ') ||
                    (recent[_numberOfCharsToKeep - 1] == 0x0d) ||
                    (recent[_numberOfCharsToKeep - 1] == 0x0a)) &&
                    ((recent[_numberOfCharsToKeep - 4] == ' ') ||
                    (recent[_numberOfCharsToKeep - 4] == 0x0d) ||
                    (recent[_numberOfCharsToKeep - 4] == 0x0a))
                    )
                {
                    return true;
                }
            }
            return false;
        }
        #endregion
    }
}
ceetheman
la source
1
bonjour ceetheman, j'ai essayé d'utiliser le code que vous avez fourni ci-dessus ... mais j'ai un problème. mes certains fichiers pdf sont lus correctement mais dans certains fichiers pdf, j'ai eu l'erreur "Index Out of Range" dans la fonction "CheckToken". pouvez-vous s'il vous plaît m'aider à résoudre ce problème?
Radhi
18
Faire référence à la source de votre exemple est une bonne idée polie. Dans ce cas, le même code source peut être trouvé ici codeproject.com/KB/cs/PDFToText.aspx
Myster
2
J'ai des problèmes avec ce code, il retourne gobledegook composé des lettres r et n. J'ai utilisé PDFBox à la fin.
Myster
Tellement bizarre ... j'ai branché mon pdf et j'ai 1627 lignes vides dans mon fichier texte ...
Ortund
1
La réponse fournie par Brock Nusser ressemble à la solution la plus à jour et doit être considérée comme la bonne réponse à cette question.
ceetheman
6
public string ReadPdfFile(object Filename, DataTable ReadLibray)
{
    PdfReader reader2 = new PdfReader((string)Filename);
    string strText = string.Empty;

    for (int page = 1; page <= reader2.NumberOfPages; page++)
    {
    ITextExtractionStrategy its = new iTextSharp.text.pdf.parser.SimpleTextExtractionStrategy();
    PdfReader reader = new PdfReader((string)Filename);
    String s = PdfTextExtractor.GetTextFromPage(reader, page, its);

    s = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(s)));
    strText = strText + s;
    reader.Close();
    }
    return strText;
}
ShravankumarKumar
la source
1
La seule méthode qui a fonctionné pour moi! Merci mec!
briba
Lecteur PDF? Veuillez ajouter quelques informations.
DxTx
1
@DT voir iTextSharp
dontbyteme
6

PDFClown peut aider, mais je ne le recommanderais pas pour une application à grande ou forte utilisation.

Ilya Kochetov
la source
Licence LGPL afin qu'elle puisse être utilisée pour créer des logiciels commerciaux et propriétaires.
Sylwester Santorowski
1

Vous pouvez consulter ceci: http://www.codeproject.com/KB/showcase/pdfrasterizer.aspx Ce n'est pas complètement gratuit, mais ça a l'air très bien.

Alex

Alex Fort
la source
1
Cela peut-il aider à convertir un PDF en texte brut? Il semble que cet outil le convertit en image. J'ai donc besoin d'une bibliothèque OCR alors :-)
JRoppert
1

aspose pdf fonctionne plutôt bien. puis encore, tu dois payer pour ça

Kuvo
la source
0

Il y a aussi LibHaru

http://libharu.org/wiki/Main_Page

Cetra
la source
Lien rompu. libharu.org
TernaryTopiary
1
Aussi: "Pour le moment, libHaru ne prend pas en charge la lecture et l'édition de fichiers PDF existants et il est peu probable que ce support apparaisse un jour." Est-ce vraiment pertinent?
TernaryTopiary
0

Jetez un œil à la bibliothèque Docotic.Pdf . Il ne vous oblige pas à ouvrir le code source de votre application (comme iTextSharp avec une licence virale AGPL 3, par exemple).

Docotic.Pdf peut être utilisé pour lire des fichiers PDF et extraire du texte avec ou sans formatage. Veuillez consulter l'article qui montre comment extraire du texte à partir de PDF .

Clause de non-responsabilité: je travaille pour Bit Miracle, fournisseur de la bibliothèque.

Bobrovsky
la source
4
Seulement 30 jours gratuits. Pas une bonne option ...
José Augustinho