栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Java

Java中使用pdfbox提取PDF文件中的内容

Java 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Java中使用pdfbox提取PDF文件中的内容

引入pdfbox依赖,其版本号为1.8.10


	org.apache.pdfbox
	pdfbox
	1.8.10
import org.apache.pdfbox.pdmodel.PDdocument;
import org.apache.pdfbox.util.PDFTextStripper;

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

public class PdfUtil {

    
    public static String readText(String filePath)throws IOException {
        File file =new File(filePath);
        FileInputStream inputStream = new FileInputStream(file);
        PDdocument document = PDdocument.load(inputStream);
        PDFTextStripper stripper=new PDFTextStripper();
        stripper.setSortByPosition(true);
        String result=stripper.getText(document);
        document.close();
        return result;
    }
}

 测试文件demo.pdf中的内容为:

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class Demo {

    public static void main(String[] args) throws Exception{
        String filePath="D:\demo.pdf";
        String content=PdfUtil.readText(filePath);
        //System.out.println("全部数据:"+content);
        // 正则表达式进行数据内容提取
        String regular = "\w{2}-\w{2}-\w{6}";
        Pattern pattern = Pattern.compile(regular);
        Matcher matcher = pattern.matcher(content);
        if (matcher != null && matcher.find()) {
            System.out.println("提取到数据:"+matcher.group());
        } else {
            System.out.println("未提取到数据");
        }
    }
}

执行上述代码,其输出结果为:

提取到数据:12-34-567890
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/737515.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号