一、tesseract安装 1.影视字幕图像文字识别原理接上条帖子:
新开了一个project,但是会提示“NO module named flask”
再开原来的project居然也报这个提示![○・`Д´・ ○]
以下是解决方案:
①打开左上角的File → Settings → Project:py → Python interpreter
②打开右边Python interpreter的下拉列表,选择Python 3.7
③如果下面是空白的,就点击右下角的apply,然后点OK
(我的似乎就是因为装了两次Python 3.7,然后它选了没有各种安装包的那一个,选择另一个就好了)
在新的project里面运行就不报错了(*^▽^*)
这里的OCR识别用到的就是tesseract
2.tesseract下载 ①下载下载地址:Index of /tesseract (建议下最新版本,版本越高识别准确率越高)
②安装下载后安装tesseract-ocr
③添加环境变量注意:安装过程中可以选择添加语言包,可以但不建议,安装速度会很慢。
建议单独下语言包后面再补。
在系统变量里面添加新的路径
④检查是否安装成功在cmd里面输入tesseract -v
⑤安装并检查语言包把下好的语言包放到tessdata文件夹里面
用 tesseract –list-langs检查是否安装成功
⑥安装pytesseract二、字幕识别pip3 install pytesseract
import pytesseract
import cv2
import numpy as np
from scipy import stats
import os
import matplotlib.pyplot as plt
os.chdir(r'C:Users81244DesktopPython practice')
if __name__ == '__main__':
path = "./20210701.mp4"
print(path)
cap = cv2.VideoCapture(path)
frame_count = int(cap.get(cv2.CAP_PROP_frame_COUNT))
print(frame_count)
i=0
while i
注意!这里有个地方一开始报错
就是说找不到语言包了
把tessdata的路径也加到环境变量里面就好啦



