Python3.6 利用Tesseract进行中英文图像识别 之 PIL,pytesseract,tesseract-ocr安装

背景环境:  win10  64位   python3.6.3python

须要安装两个包和一个引擎
在安装以前须要先安装好Python,pip并配置好环境变量
全部包的安装都是经过pip来安装的,须要在windows PowerShell中进行,而且是在 C:\Python27\Scripts目录下
1.第一个包: pytesseract
pip install pytesseract
如果出现安装错误的状况,安装不了的时候,能够将命令改成 pip.exe install pytesseract来安装
如果将pip修改成pip.exe安装成功后,那么下文的全部pip都须要改成pip.exe
2.第二个包:PIL安装
pip install PIL
如果失败了能够以下修改 pip install PILLOWgit

 3.安装识别引擎tesseract-ocr
https://github.com/tesseract-ocr/tesseract/wiki/Downloadsgithub

找到并下载安装tesseract-ocr-setup-4.00.00dev.exe文件   windows

安装时 额外语言,请勾选简体中文网络

网络很差用的能够去下面的link去下载中文训练库 chi_sim.traineddata app

https://github.com/tesseract-ocr/tessdata/blob/master/chi_sim.traineddatablog

若是须要其余语言包下载地址:download the appropriate training dataip

在系统变量中添加一个TESSDATA_PREFIX,变量值仍是安装路径,个人是C:\App\Tesseract-OCRget

安装完成后须要配置环境变量,在系统变量path后增长 tesseract-ocr的安装地址C:\App\Tesseract-OCR;it

将语言包copy到 安装路径中,个人是C:\App\Tesseract-OCR\tessdata\

查看Tesseract-OCR支持语言和 版本
tesseract --list-langs
tesseract -v

相关文章
相关标签/搜索