下载安装: tesseractlinux
安装 pytesseract 和 Pillowgit
pip install pytesseract pip install Pillow
这里只说 winsows 系统下的安装,linux 基本不会有什么问题。
在利用 pytesseract 调用 tesseract 时遇到如下错误:github
FileNotFoundError: [WinError 2] 系统找不到指定的文件。
因而我看了下pytesseract源码,发现有这样的一行windows
# CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY tesseract_cmd = 'tesseract'
估计 windows 系统要手工添加环境变量,因此才产生的问题,因而又将 tesseract 添加到环境变量 Path 中,但仍是会报错:测试
pytesseract.pytesseract.TesseractError: (1, 'Error opening data file \\Program Files (x86)\\Tesseract-OCR\\eng.traineddata')
这个是eng.traineddata
文件路径有误才会出现的错误。google
解决办法:spa
先查看tesseract有没有这个语言包,有CMD
中输入命令:code
tesseract --list-langs
结果:图片
List of available languages (2): eng osd
而后再查看而后再google搜索一下问题,发现仍是 tesseract 的环境变量的问题,找到了下面这一句话ip
Please make sure the TESSDATA_PREFIX environment variableisset to the
parent directory of your"tessdata"directory.
因而新建的一个TESSDATA_PREFIX
变量,指定tessdata
的上级目录也就是C:\Program Files (x86)\Tesseract-OCR
安装完成。
先用一个简单的验证码测试一下:
from PIL import Image import pytesseract result = pytesseract.image_to_string(Image.open(r'F:\PIN_ws\692.jpg',"r"), lang='eng') print(result)