下载地址:https://github.com/simonflueckiger/tesserocr-windows_build/releases
例如,python版本是win32的3.7,须下载tesserocr-2.4.0-cp37-cp37m-win32.whl
安装:pip install tesserocr-2.4.0-cp37-cp37m-win32.whl
下载tesseract下载地址:https://digi.bib.uni-mannheim.de/tesseract/
注意:ACT安装版本需要与OCR的支持版本保持一致!
安装:双击安装即可!
项目使用 程序import tesserocr
from PIL import Image
def image2word(path, lang):
try:
image = Image.open(path)
words = tesserocr.image_to_text(image, lang=lang)
return words
except (OSError, NameError):
return 'Error!'
1、如果报错:Failed to init API, possibly an invalid tessdata path {A}
需要将Tesseract-OCR目录下的tessdata文件夹拷贝到A目录下!
2、其中lang默认是eng,即识别英文,可以根据ISO 639-3标准赋予其他语言,如韩语kor
注意:如果tesseract未安装相应语言包,项目中却使用到此语言包,会报错:
Failed to init API, possibly an invalid tessdata path查看已安装语言
cd {ocr安装路径/Tesseract-OCR}
./tesseract --list-langs
安装语言包
下载地址:https://tesseract-ocr.github.io/tessdoc/Data-Files
如图所示,直接点击相应语言的下载链接,下载到本地,之后将下载的文件拷贝到Tesseract-OCRtessdata目录下,以及A目录tessdata目录下!
附
国内的PaddleOCR效果更强一些,项目地址:https://github.com/PaddlePaddle/PaddleOCR
如果有机会,会发一篇文章对比两者间的效果差异!
| ♥ 喜 欢 请 点 赞 哟 ♥ |
| (●ˇ∀ˇ●) |



