Windows使用tesserocr识别图片

Windows使用tesserocr识别图片 pip安装tesserocr

下载地址：https://github.com/simonflueckiger/tesserocr-windows_build/releases

例如，python版本是win32的3.7，须下载tesserocr-2.4.0-cp37-cp37m-win32.whl

安装：pip install tesserocr-2.4.0-cp37-cp37m-win32.whl

下载tesseract

下载地址：https://digi.bib.uni-mannheim.de/tesseract/

注意：ACT安装版本需要与OCR的支持版本保持一致！

安装：双击安装即可！

项目使用程序

import tesserocr
from PIL import Image

def image2word(path, lang):
    try:
        image = Image.open(path)
        words = tesserocr.image_to_text(image, lang=lang)
        return words
    except (OSError, NameError):
        return 'Error!'

1、如果报错：Failed to init API, possibly an invalid tessdata path {A}

需要将Tesseract-OCR目录下的tessdata文件夹拷贝到A目录下！

2、其中lang默认是eng，即识别英文，可以根据ISO 639-3标准赋予其他语言，如韩语kor

注意：如果tesseract未安装相应语言包，项目中却使用到此语言包，会报错：

Failed to init API, possibly an invalid tessdata path

查看已安装语言

cd {ocr安装路径/Tesseract-OCR}
./tesseract --list-langs

安装语言包

下载地址：https://tesseract-ocr.github.io/tessdoc/Data-Files

如图所示，直接点击相应语言的下载链接，下载到本地，之后将下载的文件拷贝到Tesseract-OCRtessdata目录下，以及A目录tessdata目录下！

附

国内的PaddleOCR效果更强一些，项目地址：https://github.com/PaddlePaddle/PaddleOCR

如果有机会，会发一篇文章对比两者间的效果差异！


♥ 喜欢请点赞哟 ♥
(●ˇ∀ˇ●)

Windows使用tesserocr识别图片

Python相关栏目本月热门文章