自从在2008年最后一次回答这个问题以来,iTextSharp大大改进了他们的api。如果您从http://sourceforge.net/projects/itextsharp/下载了最新版本的api
,则可以使用以下代码段将pdf中的所有文本提取为字符串。
using iTextSharp.text.pdf;using iTextSharp.text.pdf.parser;namespace PdfParser{ public static class PdfTextExtractor { public static string pdfText(string path) { PdfReader reader = new PdfReader(path); string text = string.Empty; for(int page = 1; page <= reader.NumberOfPages; page++) { text += PdfTextExtractor.GetTextFromPage(reader,page); } reader.Close(); return text; } }}


