按照目前的情况,这个问题不适合我们的问答形式。我们希望答案得到事实,参考或专业知识的支持,但是这个问题可能会引起辩论,争论,民意调查或扩展讨论。如果您认为此问题可以解决并且可以重新提出,请访问帮助中心以获取指导。
7年前关闭。
是否有一个开源库可以帮助我阅读/解析.Net / C#中的PDF文档?
自从在2008年最后一次回答这个问题以来,iTextSharp大大改进了他们的api。如果您从http://sourceforge.net/projects/itextsharp/下载了最新版本的api ,则可以使用以下代码段将pdf中的所有文本提取为字符串。
using iTextSharp.text.pdf; using iTextSharp.text.pdf.parser; namespace PdfParser { public static class PdfTextExtractor { public static string pdfText(string path) { PdfReader reader = new PdfReader(path); string text = string.Empty; for(int page = 1; page <= reader.NumberOfPages; page++) { text += PdfTextExtractor.GetTextFromPage(reader,page); } reader.Close(); return text; } } }