栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Java

Tesseract Java 识别中文+数字+字母,使用多种语言

Java 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Tesseract Java 识别中文+数字+字母,使用多种语言

    Java基于Tesseract来进行OCR识别时,如果使用chi_sim,对数字则识别不完全。如果使用eng,则对中文识别不正确,那么如何既能识别数字又能识别出中文和字母呢?

    Tesseract命令行识别时支持-l参数指定语言,如:-l deu+eng。在使用Java类库时同样也是支持的,代码如下:

File tempFolder = TempDirectory.location();
File trainDataHome = new File(tempFolder, "tessdata");
		
ITesseract tesseract = new Tesseract();

// 加载语言,使用两种语言
tesseract.setLanguage("eng+chi_sim");
tesseract.setDatapath(trainDataHome.getAbsolutePath());
		
String content = tesseract.doOCR(new File("D:\test\4-0-0.png"));
System.out.println(content);

需要识别的图片如下:

 

 

 

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/336498.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号