小编典典

在.Net中阅读PDF文档

c#

按照目前的情况,这个问题不适合我们的问答形式。我们希望答案得到事实,参考或专业知识的支持,但是这个问题可能会引起辩论,争论,民意调查或扩展讨论。如果您认为此问题可以解决并且可以重新提出,请访问帮助中心以获取指导。

7年前关闭。

是否有一个开源库可以帮助我阅读/解析.Net / C#中的PDF文档?


阅读 294

收藏
2020-05-19

共1个答案

小编典典

自从在2008年最后一次回答这个问题以来,iTextSharp大大改进了他们的api。如果您从http://sourceforge.net/projects/itextsharp/下载了最新版本的api
,则可以使用以下代码段将pdf中的所有文本提取为字符串。

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;

namespace PdfParser
{
    public static class PdfTextExtractor
    {
        public static string pdfText(string path)
        {
            PdfReader reader = new PdfReader(path);
            string text = string.Empty;
            for(int page = 1; page <= reader.NumberOfPages; page++)
            {
                text += PdfTextExtractor.GetTextFromPage(reader,page);
            }
            reader.Close();
            return text;
        }   
    }
}
2020-05-19