栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Java

Itext 读取pdf内容

Java 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Itext 读取pdf内容

引入jar

     
          com.itextpdf
          itextpdf
          5.5.13
      
      
      
          com.itextpdf
          itext-asian
          5.2.0
      

工具类:

import com.itextpdf.text.pdf.PdfReader;
import com.itextpdf.text.pdf.parser.PdfTextExtractor;

import java.io.FileOutputStream;
import java.io.IOException;
import java.io.OutputStreamWriter;
import java.io.Writer;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.List;
import java.util.logging.Level;
import java.util.logging.Logger;


public class PdfUtils {


  
  public static List extractTXTbyLine(String file) {
    List listArr = new ArrayList();
    try {
      PdfReader reader = new PdfReader(file);
      int pageNum = reader.getNumberOfPages(); // 获得页数
      for (int i = 1; i <= pageNum; i++) { // 只能从第1页开始读
        String textFromPageContent = PdfTextExtractor.getTextFromPage(reader, i);
        String[] splitArray = textFromPageContent.split("n");
        if (splitArray.length > 0) {
          listArr.addAll(Arrays.asList(splitArray));
        }
      }
    } catch (IOException ex) {
      Logger.getLogger(PdfUtils.class.getName()).log(Level.SEVERE, null, ex);
    }
    return listArr;
  }


  public static void main(String args[]) {
    String file = "F:\文档\test.pdf";
    long startTime = System.currentTimeMillis();
    List strings = extractTXTbyLine(file);
    for (String s : strings) {
      System.out.println(s);
    }
    long endTime = System.currentTimeMillis();
    System.out.println("读写所用时间为:" + (endTime - startTime) + "ms");
  }
}

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/462505.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号