Lecture de documents PDF dans .Net [fermé]

Question 1

Existe-t-il une bibliothèque open source qui m'aidera à lire / analyser des documents PDF en .Net / C #?

Question 2

Depuis la dernière réponse à cette question en 2008, iTextSharp a considérablement amélioré son API. Si vous téléchargez la dernière version de leur API à partir de http://sourceforge.net/projects/itextsharp/ , vous pouvez utiliser l'extrait de code suivant pour extraire tout le texte d'un pdf dans une chaîne.

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;

namespace PdfParser
{
    public static class PdfTextExtractor
    {
        public static string pdfText(string path)
        {
            PdfReader reader = new PdfReader(path);
            string text = string.Empty;
            for(int page = 1; page <= reader.NumberOfPages; page++)
            {
                text += PdfTextExtractor.GetTextFromPage(reader,page);
            }
            reader.Close();
            return text;
        }   
    }
}

Question 3

iTextSharp est le meilleur pari. Je l'ai utilisé pour créer une araignée pour lucene.Net afin qu'il puisse explorer le PDF.

using System;
using System.IO;
using iTextSharp.text.pdf;
using System.Text.RegularExpressions;

namespace Spider.Utils
{
    /// <summary>
    /// Parses a PDF file and extracts the text from it.
    /// </summary>
    public class PDFParser
    {
        /// BT = Beginning of a text object operator 
        /// ET = End of a text object operator
        /// Td move to the start of next line
        ///  5 Ts = superscript
        /// -5 Ts = subscript

        #region Fields

        #region _numberOfCharsToKeep
        /// <summary>
        /// The number of characters to keep, when extracting text.
        /// </summary>
        private static int _numberOfCharsToKeep = 15;
        #endregion

        #endregion

        #region ExtractText
        /// <summary>
        /// Extracts a text from a PDF file.
        /// </summary>
        /// <param name="inFileName">the full path to the pdf file.</param>
        /// <param name="outFileName">the output file name.</param>
        /// <returns>the extracted text</returns>
        public bool ExtractText(string inFileName, string outFileName)
        {
            StreamWriter outFile = null;
            try
            {
                // Create a reader for the given PDF file
                PdfReader reader = new PdfReader(inFileName);
                //outFile = File.CreateText(outFileName);
                outFile = new StreamWriter(outFileName, false, System.Text.Encoding.UTF8);

                Console.Write("Processing: ");

                int totalLen = 68;
                float charUnit = ((float)totalLen) / (float)reader.NumberOfPages;
                int totalWritten = 0;
                float curUnit = 0;

                for (int page = 1; page <= reader.NumberOfPages; page++)
                {
                    outFile.Write(ExtractTextFromPDFBytes(reader.GetPageContent(page)) + " ");

                    // Write the progress.
                    if (charUnit >= 1.0f)
                    {
                        for (int i = 0; i < (int)charUnit; i++)
                        {
                            Console.Write("#");
                            totalWritten++;
                        }
                    }
                    else
                    {
                        curUnit += charUnit;
                        if (curUnit >= 1.0f)
                        {
                            for (int i = 0; i < (int)curUnit; i++)
                            {
                                Console.Write("#");
                                totalWritten++;
                            }
                            curUnit = 0;
                        }

                    }
                }

                if (totalWritten < totalLen)
                {
                    for (int i = 0; i < (totalLen - totalWritten); i++)
                    {
                        Console.Write("#");
                    }
                }
                return true;
            }
            catch
            {
                return false;
            }
            finally
            {
                if (outFile != null) outFile.Close();
            }
        }
        #endregion

        #region ExtractTextFromPDFBytes
        /// <summary>
        /// This method processes an uncompressed Adobe (text) object 
        /// and extracts text.
        /// </summary>
        /// <param name="input">uncompressed</param>
        /// <returns></returns>
        public string ExtractTextFromPDFBytes(byte[] input)
        {
            if (input == null || input.Length == 0) return "";

            try
            {
                string resultString = "";

                // Flag showing if we are we currently inside a text object
                bool inTextObject = false;

                // Flag showing if the next character is literal 
                // e.g. '\\' to get a '\' character or '\(' to get '('
                bool nextLiteral = false;

                // () Bracket nesting level. Text appears inside ()
                int bracketDepth = 0;

                // Keep previous chars to get extract numbers etc.:
                char[] previousCharacters = new char[_numberOfCharsToKeep];
                for (int j = 0; j < _numberOfCharsToKeep; j++) previousCharacters[j] = ' ';


                for (int i = 0; i < input.Length; i++)
                {
                    char c = (char)input[i];
                    if (input[i] == 213)
                        c = "'".ToCharArray()[0];

                    if (inTextObject)
                    {
                        // Position the text
                        if (bracketDepth == 0)
                        {
                            if (CheckToken(new string[] { "TD", "Td" }, previousCharacters))
                            {
                                resultString += "\n\r";
                            }
                            else
                            {
                                if (CheckToken(new string[] { "'", "T*", "\"" }, previousCharacters))
                                {
                                    resultString += "\n";
                                }
                                else
                                {
                                    if (CheckToken(new string[] { "Tj" }, previousCharacters))
                                    {
                                        resultString += " ";
                                    }
                                }
                            }
                        }

                        // End of a text object, also go to a new line.
                        if (bracketDepth == 0 &&
                            CheckToken(new string[] { "ET" }, previousCharacters))
                        {

                            inTextObject = false;
                            resultString += " ";
                        }
                        else
                        {
                            // Start outputting text
                            if ((c == '(') && (bracketDepth == 0) && (!nextLiteral))
                            {
                                bracketDepth = 1;
                            }
                            else
                            {
                                // Stop outputting text
                                if ((c == ')') && (bracketDepth == 1) && (!nextLiteral))
                                {
                                    bracketDepth = 0;
                                }
                                else
                                {
                                    // Just a normal text character:
                                    if (bracketDepth == 1)
                                    {
                                        // Only print out next character no matter what. 
                                        // Do not interpret.
                                        if (c == '\\' && !nextLiteral)
                                        {
                                            resultString += c.ToString();
                                            nextLiteral = true;
                                        }
                                        else
                                        {
                                            if (((c >= ' ') && (c <= '~')) ||
                                                ((c >= 128) && (c < 255)))
                                            {
                                                resultString += c.ToString();
                                            }

                                            nextLiteral = false;
                                        }
                                    }
                                }
                            }
                        }
                    }

                    // Store the recent characters for 
                    // when we have to go back for a checking
                    for (int j = 0; j < _numberOfCharsToKeep - 1; j++)
                    {
                        previousCharacters[j] = previousCharacters[j + 1];
                    }
                    previousCharacters[_numberOfCharsToKeep - 1] = c;

                    // Start of a text object
                    if (!inTextObject && CheckToken(new string[] { "BT" }, previousCharacters))
                    {
                        inTextObject = true;
                    }
                }

                return CleanupContent(resultString);
            }
            catch
            {
                return "";
            }
        }

        private string CleanupContent(string text)
        {
            string[] patterns = { @"\\\(", @"\\\)", @"\\226", @"\\222", @"\\223", @"\\224", @"\\340", @"\\342", @"\\344", @"\\300", @"\\302", @"\\304", @"\\351", @"\\350", @"\\352", @"\\353", @"\\311", @"\\310", @"\\312", @"\\313", @"\\362", @"\\364", @"\\366", @"\\322", @"\\324", @"\\326", @"\\354", @"\\356", @"\\357", @"\\314", @"\\316", @"\\317", @"\\347", @"\\307", @"\\371", @"\\373", @"\\374", @"\\331", @"\\333", @"\\334", @"\\256", @"\\231", @"\\253", @"\\273", @"\\251", @"\\221"};
            string[] replace = {   "(",     ")",      "-",     "'",      "\"",      "\"",    "à",      "â",      "ä",      "À",      "Â",      "Ä",      "é",      "è",      "ê",      "ë",      "É",      "È",      "Ê",      "Ë",      "ò",      "ô",      "ö",      "Ò",      "Ô",      "Ö",      "ì",      "î",      "ï",      "Ì",      "Î",      "Ï",      "ç",      "Ç",      "ù",      "û",      "ü",      "Ù",      "Û",      "Ü",      "®",      "™",      "«",      "»",      "©",      "'" };

            for (int i = 0; i < patterns.Length; i++)
            {
                string regExPattern = patterns[i];
                Regex regex = new Regex(regExPattern, RegexOptions.IgnoreCase);
                text = regex.Replace(text, replace[i]);
            }

            return text;
        }

        #endregion

        #region CheckToken
        /// <summary>
        /// Check if a certain 2 character token just came along (e.g. BT)
        /// </summary>
        /// <param name="tokens">the searched token</param>
        /// <param name="recent">the recent character array</param>
        /// <returns></returns>
        private bool CheckToken(string[] tokens, char[] recent)
        {
            foreach (string token in tokens)
            {
                if ((recent[_numberOfCharsToKeep - 3] == token[0]) &&
                    (recent[_numberOfCharsToKeep - 2] == token[1]) &&
                    ((recent[_numberOfCharsToKeep - 1] == ' ') ||
                    (recent[_numberOfCharsToKeep - 1] == 0x0d) ||
                    (recent[_numberOfCharsToKeep - 1] == 0x0a)) &&
                    ((recent[_numberOfCharsToKeep - 4] == ' ') ||
                    (recent[_numberOfCharsToKeep - 4] == 0x0d) ||
                    (recent[_numberOfCharsToKeep - 4] == 0x0a))
                    )
                {
                    return true;
                }
            }
            return false;
        }
        #endregion
    }
}

Question 4

public string ReadPdfFile(object Filename, DataTable ReadLibray)
{
    PdfReader reader2 = new PdfReader((string)Filename);
    string strText = string.Empty;

    for (int page = 1; page <= reader2.NumberOfPages; page++)
    {
    ITextExtractionStrategy its = new iTextSharp.text.pdf.parser.SimpleTextExtractionStrategy();
    PdfReader reader = new PdfReader((string)Filename);
    String s = PdfTextExtractor.GetTextFromPage(reader, page, its);

    s = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(s)));
    strText = strText + s;
    reader.Close();
    }
    return strText;
}

Question 5

PDFClown peut aider, mais je ne le recommanderais pas pour une application à grande ou forte utilisation.

Question 6

iText est la meilleure bibliothèque que je connaisse. Initialement écrit en Java, il existe également un port .NET.

Voir http://www.ujihara.jp/iTextdotNET/en/

Question 7

Vous pouvez consulter ceci: http://www.codeproject.com/KB/showcase/pdfrasterizer.aspx Ce n'est pas complètement gratuit, mais ça a l'air très bien.

Alex

Question 8

http://www.c-sharpcorner.com/UploadFile/psingh/PDFFileGenerator12062005235236PM/PDFFileGenerator.aspx est open source et peut être un bon point de départ pour vous.

Question 9

aspose pdf fonctionne plutôt bien. puis encore, tu dois payer pour ça

Question 10

je Texte?

http://www.itextpdf.com/terms-of-use/index.php

Guider

http://www.vogella.com/articles/JavaPDF/article.html

Question 11

Il y a aussi LibHaru

http://libharu.org/wiki/Main_Page

Question 12

Jetez un œil à la bibliothèque Docotic.Pdf . Il ne vous oblige pas à ouvrir le code source de votre application (comme iTextSharp avec une licence virale AGPL 3, par exemple).

Docotic.Pdf peut être utilisé pour lire des fichiers PDF et extraire du texte avec ou sans formatage. Veuillez consulter l'article qui montre comment extraire du texte à partir de PDF .

Clause de non-responsabilité: je travaille pour Bit Miracle, fournisseur de la bibliothèque.

Answer 1 · 06/10/2012 22: 16: 56Z

Existe-t-il une bibliothèque open source qui m'aidera à lire / analyser des documents PDF en .Net / C #?

Answer 2

1

La réponse fournie par Brock Nusser ressemble à la solution la plus à jour et devrait être considérée comme la bonne réponse à cette question

ceetheman

Answer 3

Des réponses iTextSharp plus mises à jour ici puisque cette question est fermée.

VDWWD le

Answer 4

116

Depuis la dernière réponse à cette question en 2008, iTextSharp a considérablement amélioré son API. Si vous téléchargez la dernière version de leur API à partir de http://sourceforge.net/projects/itextsharp/ , vous pouvez utiliser l'extrait de code suivant pour extraire tout le texte d'un pdf dans une chaîne.

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;

namespace PdfParser
{
    public static class PdfTextExtractor
    {
        public static string pdfText(string path)
        {
            PdfReader reader = new PdfReader(path);
            string text = string.Empty;
            for(int page = 1; page <= reader.NumberOfPages; page++)
            {
                text += PdfTextExtractor.GetTextFromPage(reader,page);
            }
            reader.Close();
            return text;
        }   
    }
}

Brock Nusser
la source

17

Vous ne devriez probablement pas appeler votre classe PdfTextExtractorcar elle entrera en conflit avec celle deiTextSharp.text.pdf.parser

Neil

2

iTextSharp a déménagé sur GitHub: github.com/itext/itextsharp

Amedee Van Gasse

1

peut-être que ceux qui ont répondu ici pourraient aider ici ?

Veverke

6

Il est désormais payé pour les projets commerciaux.

Nikolay Kostov

1

@iTextSharp a été obsolète et remplacé par iText 7 github.com/itext/itext7-dotnet .

Matthieu le

Answer 5

17

Vous ne devriez probablement pas appeler votre classe PdfTextExtractorcar elle entrera en conflit avec celle deiTextSharp.text.pdf.parser

Neil

Answer 6

2

iTextSharp a déménagé sur GitHub: github.com/itext/itextsharp

Amedee Van Gasse

Answer 7

1

peut-être que ceux qui ont répondu ici pourraient aider ici ?

Veverke

Answer 8

6

Il est désormais payé pour les projets commerciaux.

Nikolay Kostov

Answer 9

1

@iTextSharp a été obsolète et remplacé par iText 7 github.com/itext/itext7-dotnet .

Matthieu le

Answer 10

iTextSharp est le meilleur pari. Je l'ai utilisé pour créer une araignée pour lucene.Net afin qu'il puisse explorer le PDF.

using System;
using System.IO;
using iTextSharp.text.pdf;
using System.Text.RegularExpressions;

namespace Spider.Utils
{
    /// <summary>
    /// Parses a PDF file and extracts the text from it.
    /// </summary>
    public class PDFParser
    {
        /// BT = Beginning of a text object operator 
        /// ET = End of a text object operator
        /// Td move to the start of next line
        ///  5 Ts = superscript
        /// -5 Ts = subscript

        #region Fields

        #region _numberOfCharsToKeep
        /// <summary>
        /// The number of characters to keep, when extracting text.
        /// </summary>
        private static int _numberOfCharsToKeep = 15;
        #endregion

        #endregion

        #region ExtractText
        /// <summary>
        /// Extracts a text from a PDF file.
        /// </summary>
        /// <param name="inFileName">the full path to the pdf file.</param>
        /// <param name="outFileName">the output file name.</param>
        /// <returns>the extracted text</returns>
        public bool ExtractText(string inFileName, string outFileName)
        {
            StreamWriter outFile = null;
            try
            {
                // Create a reader for the given PDF file
                PdfReader reader = new PdfReader(inFileName);
                //outFile = File.CreateText(outFileName);
                outFile = new StreamWriter(outFileName, false, System.Text.Encoding.UTF8);

                Console.Write("Processing: ");

                int totalLen = 68;
                float charUnit = ((float)totalLen) / (float)reader.NumberOfPages;
                int totalWritten = 0;
                float curUnit = 0;

                for (int page = 1; page <= reader.NumberOfPages; page++)
                {
                    outFile.Write(ExtractTextFromPDFBytes(reader.GetPageContent(page)) + " ");

                    // Write the progress.
                    if (charUnit >= 1.0f)
                    {
                        for (int i = 0; i < (int)charUnit; i++)
                        {
                            Console.Write("#");
                            totalWritten++;
                        }
                    }
                    else
                    {
                        curUnit += charUnit;
                        if (curUnit >= 1.0f)
                        {
                            for (int i = 0; i < (int)curUnit; i++)
                            {
                                Console.Write("#");
                                totalWritten++;
                            }
                            curUnit = 0;
                        }

                    }
                }

                if (totalWritten < totalLen)
                {
                    for (int i = 0; i < (totalLen - totalWritten); i++)
                    {
                        Console.Write("#");
                    }
                }
                return true;
            }
            catch
            {
                return false;
            }
            finally
            {
                if (outFile != null) outFile.Close();
            }
        }
        #endregion

        #region ExtractTextFromPDFBytes
        /// <summary>
        /// This method processes an uncompressed Adobe (text) object 
        /// and extracts text.
        /// </summary>
        /// <param name="input">uncompressed</param>
        /// <returns></returns>
        public string ExtractTextFromPDFBytes(byte[] input)
        {
            if (input == null || input.Length == 0) return "";

            try
            {
                string resultString = "";

                // Flag showing if we are we currently inside a text object
                bool inTextObject = false;

                // Flag showing if the next character is literal 
                // e.g. '\\' to get a '\' character or '\(' to get '('
                bool nextLiteral = false;

                // () Bracket nesting level. Text appears inside ()
                int bracketDepth = 0;

                // Keep previous chars to get extract numbers etc.:
                char[] previousCharacters = new char[_numberOfCharsToKeep];
                for (int j = 0; j < _numberOfCharsToKeep; j++) previousCharacters[j] = ' ';


                for (int i = 0; i < input.Length; i++)
                {
                    char c = (char)input[i];
                    if (input[i] == 213)
                        c = "'".ToCharArray()[0];

                    if (inTextObject)
                    {
                        // Position the text
                        if (bracketDepth == 0)
                        {
                            if (CheckToken(new string[] { "TD", "Td" }, previousCharacters))
                            {
                                resultString += "\n\r";
                            }
                            else
                            {
                                if (CheckToken(new string[] { "'", "T*", "\"" }, previousCharacters))
                                {
                                    resultString += "\n";
                                }
                                else
                                {
                                    if (CheckToken(new string[] { "Tj" }, previousCharacters))
                                    {
                                        resultString += " ";
                                    }
                                }
                            }
                        }

                        // End of a text object, also go to a new line.
                        if (bracketDepth == 0 &&
                            CheckToken(new string[] { "ET" }, previousCharacters))
                        {

                            inTextObject = false;
                            resultString += " ";
                        }
                        else
                        {
                            // Start outputting text
                            if ((c == '(') && (bracketDepth == 0) && (!nextLiteral))
                            {
                                bracketDepth = 1;
                            }
                            else
                            {
                                // Stop outputting text
                                if ((c == ')') && (bracketDepth == 1) && (!nextLiteral))
                                {
                                    bracketDepth = 0;
                                }
                                else
                                {
                                    // Just a normal text character:
                                    if (bracketDepth == 1)
                                    {
                                        // Only print out next character no matter what. 
                                        // Do not interpret.
                                        if (c == '\\' && !nextLiteral)
                                        {
                                            resultString += c.ToString();
                                            nextLiteral = true;
                                        }
                                        else
                                        {
                                            if (((c >= ' ') && (c <= '~')) ||
                                                ((c >= 128) && (c < 255)))
                                            {
                                                resultString += c.ToString();
                                            }

                                            nextLiteral = false;
                                        }
                                    }
                                }
                            }
                        }
                    }

                    // Store the recent characters for 
                    // when we have to go back for a checking
                    for (int j = 0; j < _numberOfCharsToKeep - 1; j++)
                    {
                        previousCharacters[j] = previousCharacters[j + 1];
                    }
                    previousCharacters[_numberOfCharsToKeep - 1] = c;

                    // Start of a text object
                    if (!inTextObject && CheckToken(new string[] { "BT" }, previousCharacters))
                    {
                        inTextObject = true;
                    }
                }

                return CleanupContent(resultString);
            }
            catch
            {
                return "";
            }
        }

        private string CleanupContent(string text)
        {
            string[] patterns = { @"\\\(", @"\\\)", @"\\226", @"\\222", @"\\223", @"\\224", @"\\340", @"\\342", @"\\344", @"\\300", @"\\302", @"\\304", @"\\351", @"\\350", @"\\352", @"\\353", @"\\311", @"\\310", @"\\312", @"\\313", @"\\362", @"\\364", @"\\366", @"\\322", @"\\324", @"\\326", @"\\354", @"\\356", @"\\357", @"\\314", @"\\316", @"\\317", @"\\347", @"\\307", @"\\371", @"\\373", @"\\374", @"\\331", @"\\333", @"\\334", @"\\256", @"\\231", @"\\253", @"\\273", @"\\251", @"\\221"};
            string[] replace = {   "(",     ")",      "-",     "'",      "\"",      "\"",    "à",      "â",      "ä",      "À",      "Â",      "Ä",      "é",      "è",      "ê",      "ë",      "É",      "È",      "Ê",      "Ë",      "ò",      "ô",      "ö",      "Ò",      "Ô",      "Ö",      "ì",      "î",      "ï",      "Ì",      "Î",      "Ï",      "ç",      "Ç",      "ù",      "û",      "ü",      "Ù",      "Û",      "Ü",      "®",      "™",      "«",      "»",      "©",      "'" };

            for (int i = 0; i < patterns.Length; i++)
            {
                string regExPattern = patterns[i];
                Regex regex = new Regex(regExPattern, RegexOptions.IgnoreCase);
                text = regex.Replace(text, replace[i]);
            }

            return text;
        }

        #endregion

        #region CheckToken
        /// <summary>
        /// Check if a certain 2 character token just came along (e.g. BT)
        /// </summary>
        /// <param name="tokens">the searched token</param>
        /// <param name="recent">the recent character array</param>
        /// <returns></returns>
        private bool CheckToken(string[] tokens, char[] recent)
        {
            foreach (string token in tokens)
            {
                if ((recent[_numberOfCharsToKeep - 3] == token[0]) &&
                    (recent[_numberOfCharsToKeep - 2] == token[1]) &&
                    ((recent[_numberOfCharsToKeep - 1] == ' ') ||
                    (recent[_numberOfCharsToKeep - 1] == 0x0d) ||
                    (recent[_numberOfCharsToKeep - 1] == 0x0a)) &&
                    ((recent[_numberOfCharsToKeep - 4] == ' ') ||
                    (recent[_numberOfCharsToKeep - 4] == 0x0d) ||
                    (recent[_numberOfCharsToKeep - 4] == 0x0a))
                    )
                {
                    return true;
                }
            }
            return false;
        }
        #endregion
    }
}

Answer 11

1

bonjour ceetheman, j'ai essayé d'utiliser le code que vous avez fourni ci-dessus ... mais j'ai un problème. mes certains fichiers pdf sont lus correctement mais dans certains fichiers pdf, j'ai eu l'erreur "Index Out of Range" dans la fonction "CheckToken". pouvez-vous s'il vous plaît m'aider à résoudre ce problème?

Radhi

Answer 12

18

Faire référence à la source de votre exemple est une bonne idée polie. Dans ce cas, le même code source peut être trouvé ici codeproject.com/KB/cs/PDFToText.aspx

Myster

Answer 13

2

J'ai des problèmes avec ce code, il retourne gobledegook composé des lettres r et n. J'ai utilisé PDFBox à la fin.

Myster

Answer 14

Tellement bizarre ... j'ai branché mon pdf et j'ai 1627 lignes vides dans mon fichier texte ...

Ortund

Answer 15

1

La réponse fournie par Brock Nusser ressemble à la solution la plus à jour et doit être considérée comme la bonne réponse à cette question.

ceetheman

Answer 16

6

public string ReadPdfFile(object Filename, DataTable ReadLibray)
{
    PdfReader reader2 = new PdfReader((string)Filename);
    string strText = string.Empty;

    for (int page = 1; page <= reader2.NumberOfPages; page++)
    {
    ITextExtractionStrategy its = new iTextSharp.text.pdf.parser.SimpleTextExtractionStrategy();
    PdfReader reader = new PdfReader((string)Filename);
    String s = PdfTextExtractor.GetTextFromPage(reader, page, its);

    s = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(s)));
    strText = strText + s;
    reader.Close();
    }
    return strText;
}

ShravankumarKumar
la source

1

La seule méthode qui a fonctionné pour moi! Merci mec!

briba

Lecteur PDF? Veuillez ajouter quelques informations.

DxTx

1

@DT voir iTextSharp

dontbyteme

Answer 17

1

La seule méthode qui a fonctionné pour moi! Merci mec!

briba

Answer 18

Lecteur PDF? Veuillez ajouter quelques informations.

DxTx

Answer 19

1

@DT voir iTextSharp

dontbyteme

Answer 20

6

PDFClown peut aider, mais je ne le recommanderais pas pour une application à grande ou forte utilisation.

Ilya Kochetov
la source

Licence LGPL afin qu'elle puisse être utilisée pour créer des logiciels commerciaux et propriétaires.

Sylwester Santorowski

Answer 21

Licence LGPL afin qu'elle puisse être utilisée pour créer des logiciels commerciaux et propriétaires.

Sylwester Santorowski

Answer 22

3

iText est la meilleure bibliothèque que je connaisse. Initialement écrit en Java, il existe également un port .NET.

Voir http://www.ujihara.jp/iTextdotNET/en/

la source

Ce n'est pas un port officiel, et le lien est de toute façon rompu. Le port officiel .NET d'iText, iTextSharp, peut être trouvé sur GitHub: github.com/itext/itextsharp

Amedee Van Gasse

Answer 23

Ce n'est pas un port officiel, et le lien est de toute façon rompu. Le port officiel .NET d'iText, iTextSharp, peut être trouvé sur GitHub: github.com/itext/itextsharp

Amedee Van Gasse

Answer 24

1

Vous pouvez consulter ceci: http://www.codeproject.com/KB/showcase/pdfrasterizer.aspx Ce n'est pas complètement gratuit, mais ça a l'air très bien.

Alex

Alex Fort
la source

1

Cela peut-il aider à convertir un PDF en texte brut? Il semble que cet outil le convertit en image. J'ai donc besoin d'une bibliothèque OCR alors :-)

JRoppert

Answer 25

1

Cela peut-il aider à convertir un PDF en texte brut? Il semble que cet outil le convertit en image. J'ai donc besoin d'une bibliothèque OCR alors :-)

JRoppert

Answer 26

http://www.c-sharpcorner.com/UploadFile/psingh/PDFFileGenerator12062005235236PM/PDFFileGenerator.aspx est open source et peut être un bon point de départ pour vous.

Answer 27

1

aspose pdf fonctionne plutôt bien. puis encore, tu dois payer pour ça

Kuvo
la source

Answer 28

1

je Texte?

http://www.itextpdf.com/terms-of-use/index.php

Guider

http://www.vogella.com/articles/JavaPDF/article.html

Dobermaxx99
la source

Answer 29

0

Il y a aussi LibHaru

http://libharu.org/wiki/Main_Page

Cetra
la source

Lien rompu. libharu.org

TernaryTopiary

1

Aussi: "Pour le moment, libHaru ne prend pas en charge la lecture et l'édition de fichiers PDF existants et il est peu probable que ce support apparaisse un jour." Est-ce vraiment pertinent?

TernaryTopiary

Answer 30

Lien rompu. libharu.org

TernaryTopiary

Answer 31

1

Aussi: "Pour le moment, libHaru ne prend pas en charge la lecture et l'édition de fichiers PDF existants et il est peu probable que ce support apparaisse un jour." Est-ce vraiment pertinent?

TernaryTopiary

Answer 32

Jetez un œil à la bibliothèque Docotic.Pdf . Il ne vous oblige pas à ouvrir le code source de votre application (comme iTextSharp avec une licence virale AGPL 3, par exemple).

Docotic.Pdf peut être utilisé pour lire des fichiers PDF et extraire du texte avec ou sans formatage. Veuillez consulter l'article qui montre comment extraire du texte à partir de PDF .

Clause de non-responsabilité: je travaille pour Bit Miracle, fournisseur de la bibliothèque.

Answer 33

4

Seulement 30 jours gratuits. Pas une bonne option ...

José Augustinho

Lecture de documents PDF dans .Net [fermé]

Réponses: