1.安装Python依赖库:pytesseract 和 PILpython
# 安装pytesseract pip install pytesseract # 安装PIL pip install PIL #此处若是电脑是window64位系统不能直接使用pip安装,解决方法: 1.先下载:https://www.lfd.uci.edu/~gohlke/pythonlibs/ 根据Python版本下载对应的版本,个人是python3.5因此下载: Pillow-5.0.0-cp35-cp35m-win_amd64.whl 2.安装wheel依赖,由于安装Pillow-5.0.0-cp35-cp35m-win_amd64.whl须要wheel依赖 pip install wheel 3.切换到Pillow-5.0.0-cp35-cp35m-win_amd64.whl的下载目录,执行安装名称 pip intall Pillow-5.0.0-cp35-cp35m-win_amd64.whl 到此PIL安装完毕 # 安装识别引擎tesseract-ocr 1.下载安装包tesseract-ocr安装包和中文语言包 下载好后直接点击.exe文件安装便可,默认不支持中文,若是想要支持英文须要把中文包复制到tesseract-ocr/tessdata的目录下
到此就能够使用图片识别文字了,可是只是支持英文测试
测试图片(test2.png):code
from PIL import Image import pytesseract #测试的图片资源 text = pytesseract.image_to_string(Image.open('test2.png')) print(text)
结果:图片
若是须要识别中文须要配置库路径ip
打开python安装目录,找到并编辑D:\python\Lib\site-packages\pytesseract\pytesseract.pyci
#tesseract_cmd = 'tesseract'
tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'资源
保存后就能够支持中文识别了cmd
测试图片:string
结果:it
能够看出其实中文识别性仍是儿童级别的!