OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,经过检测暗、亮的模式肯定其形状,而后用字符识别方法将形状翻译成计算机文字的过程。优秀的开源OCR软件包括:html
云服务商提供服务:python
OpenCV VS tesseract:linux
因为tesserocr在windows环境下会出现各类不兼容问题,而且与pycharm虚拟环境不兼容等问题,因此在windows系统环境下,选择pytesseract模块进行安装 ios
Tesseractgit
Tesserocr 是Python的一个OCR库,但实际上是对tesseract作的一层Python API的封装,因此他的核心是tesseract。所以,在安装tesserocr以前,咱们须要先安装tesseract。 实际使用tesseract ocr也有两种方式:1- 动态库方式 libtesseract 2 - 执行程序方式 tesseract.exegithub
安装过程:segmentfault
安装Tesseractwindows
找到中文简体和中文繁体,按需勾选,而后点下一步。能够先不勾选,由于这样直接下载语言的包实在太慢。能够从网页上直接下载语言包,而后等程序安装好后,放入安装目录下tessdata目录下面,以下图:ide
配置:布局
验证安装:
落地验证:
python用tesseract-ocr作图像识别
须要导入两个库,这是别人写好的封装好的库文件。
Python-tesseract: 是Tesseract OCR引擎的Python封装类。可以读取任何常规的图片文件(JPG, GIF ,PNG , TIFF等)并解码成可读的语言。在OCR处理期间不会建立任何临文件
PIL (Python Imaging Library):是 Python 中最经常使用的图像处理库。
python对图像的处理比较常见的是用 pytesseract 识别验证码,要安装pytesseract库,必须先安装其依赖的 PIL 及 tesseract-ocr,其中PIL为图像处理库,然后面的tesseract-ocr则为google的ocr识别引擎。
示例代码:
import pytesseract from PIL import Image as img text = pytesseract.image_to_string(img.open('image.png')) print(text)
示例结果:
带中文图片示例(示例图片是从百度图片上下载的):
中文效果并不理想,下一节介绍训练过程
相关连接:
参考资料: