想测试一下python tesseract OCR识别,结果光配置环境搞了好几天,网上的各种方法试了不少,总结一下我亲测能用的一种,特别参考了下述文章,有些地方我运行不了,做了更改:python ocr中文识别库 tesseract安装及问题处理 - 耀扬 - 博客园 (cnblogs.com)
运行环境:WIN10+anaconda+python3.97
1、anaconda不能正常升级、安装包的,先把配置文件改一下。我的在C:Usersmj目录下.condarc
把文件内容改成:
channels: - http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ - http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/ - http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/ - http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/ - http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/ show_channel_urls: true
2、下载安装包。https://github.com/UB-Mannheim/tesseract/wiki
我下的是 tesseract-ocr-w64-setup-v5.0.1.20220118.exe版本。安装
3、配置环境变量:
从C:Program FilesTesseract-OCR安装目录下,直接把tessdata 文件夹里的内容都复制到C:ProgramDataAnaconda3,另外tessdata 文件夹里chi_sim.traineddata,eng.traineddata文件需要复制到C:ProgramDataAnaconda3下,不然后面运行程序会提示找不到文件,配置好环境变量也不行!
4、用管理员权限运行Anaconda Powershell prompt,不然会出错,我在权限上卡了好久!
出现这个界面就运行成功。
5、运行
conda install tesserocr pillow
耐心等。
proceed?当然要选Y。
pillow安装成功。
6、继续安装pytesseract
conda install pytesseract
安装成功。
7、配置tesseract运行文件
C:ProgramDataAnaconda3Libsite-packagespytesseract目录下pytesseract.py文件找到tesseract_cmd = 'tesseract',改成tesseract_cmd = 'C:/Program Files/Tesseract-OCR/tesseract.exe'
8、大功告成,spyder运行正常
import pytesseract from PIL import Image image = Image.open(r'd:1.png') result =pytesseract.image_to_string (image,lang='eng') print(result)



