在爬虫过程当中,不免会遇到各类各样的验证码,而大多数验证码仍是图形验证码,这时候咱们能够直接用 OCR 来识别。python
tesserocr 是 Python 的一个 OCR 识别库 ,但实际上是对 tesseract 作的一 层 Python API 封装,因此它的核心是 tesseract。 所以,在安装 tesserocr 以前,咱们须要先安装 tesseract 。git
例如:对于下图的验证码,咱们能够经过 OCR 技术将其转换成电子文本,而后爬虫将识别的结果提交给服务器,即可以达到自动识别验证码的过程。github
tesserocr GitHub: https://github.com/sirfz/tesserocr服务器
tesserocr PyPI: https://pypi.python.org/pypi/tesserocride
tesseract 下载地址: http://digi.bib.uni-mannheim.de/tesseract测试
tesseract GitHub: https://github.com/tesseract-ocr/tesseractspa
tesseract 语言包: http://github.com/tesseract-ocr/tessdata3d
tesseract 文档: https://github.com/tesseract-ocr/tesseract/wiki/Documentationcode
在 Windows 下,首先须要下载 tesseract,它为 tesserocr 提供了支持。blog
进入下载页面,能够看到有各类 .exe 文件的下载列表,这里能够选择下载 3.0 版本 。 以下图所示为 3.05 版本 。
其中文件名中带有 dev 的为开发版本,不带 dev 的为稳定版本,能够选择下载不带 dev 的版本, 例如能够选择下载 tesseract-ocr-setup-3 .05.01.exe。
下载完成后双击运行,安装程序。须要注意的是,须要句选 Additional language data(download)选项来安装 OCR 识别支持的语言包,这样 OCR 即可以识别多国语言 。
给tesseract配置环境变量:
(1)将tesseract安装路径添加到path环境变量中
(2)将tesseract的语言包添加到环境变量中,在环境变量中新建一个系统变量,变量名称为TESSDATA_PREFIX,tessdata是放置语言包的文件夹,通常在你安装tesseract的目录下,即tesseract的安装目录就是tessdata的父目录,把TESSDATA_PREFIX的值设置为它便可
接下来 , 再安装 tesserocr 便可:
pip install tesserocr pillow
若是经过 pip 安装失败,能够尝试 Anaconda 下的 conda 来安装:
conda install -c simonflueckiger tesserocr pillow
测试样例:
图片下载:http://images.cnblogs.com/cnblogs_com/Jimc/1316973/o_image.png
(1)用 tesseract 命令测试:
tesseract image.png result -l eng
运行结果以下:
Tesseract Open Source OCR Engine v3.05.01 with Leptonica
(2)利用 Python 代码测试:
import tesserocr from PIL import Image image = Image.open('image.png') result = tesserocr.image_to_text(image) print(result)
运行结果以下:
PythonWebSpider
另外,还能够直接调用 tesserocr 模块的 file_to_text() 方法,能够达到一样的效果:
import tesserocr print(tesserocr.file_to_text('image.png'))
运行结果以下:
PythonWebSpider
若是成功输出结果,则证实 tesseract 和 tesserocr 都已经安装成功。