操做系统:Win10 1709 X64python
python版本:3.6.5windows
依赖模块:PIL、tesserocr。app
须要说明的是,在windows系统上PowerShell经过PIP3 install tesserocr安装验证码识别模块时,须要先安装Tesseract (一款由HP实验室开发由Google维护的开源OCR(Optical Character Recognition , 光学字符识别)引擎,与Microsoft Office Document Imaging(MODI)相比,咱们能够不断的训练的库,使图像转换文本的能力不断加强。)可执行文件。工具
以中国知网的注册页面为例,咱们常被要求输入这类简单的字母组成,背景含不少杂线的验证码,以下图所示:网站
咱们对验证码另存为到本地代码所在目录,取名:test.png.spa
下图是直接用对应模块识别的代码示例:操作系统
import tesserocr from PIL import Image image=Image.open('test.png') image.show() #能够打印出图片,供预览 print(tesserocr.image_to_text(image))
原始图片尺寸较小,极少状况下若是没法正常识别,能够借助图片处理工具PIL模块进行图片等比例放大后保存。此例中直接运行上述代码,结果为“VHIHI”,即便是肉眼可见较为清晰的验证码,若是图片未经处理直接交由tesserocr解析,也可能识别率很低。code
一般状况下,咱们还须要作些额外的图片处理,如转灰度图,二值化等。blog
利用Image对应的convert()方法传参L,便可将图片转为灰度图。图片
image=image.convert('L')
image.show()
传入1便可完成二值化,以下:
image=image.convert('1')
image.show()
固然咱们更多时候须要根据图片的实际状况指定二值化的阈值,好比咱们将阈值设定为80,先转灰度图,再二值化,代码以下:
import tesserocr from PIL import Image image=Image.open('test.png') image=image.convert("L") threshold=80 table=[] for i in range(256): if i <threshold: table.append(0) else: table.append(1) image=image.point(table,'1') image.show() print(tesserocr.image_to_text(image))
观察处处理后图片如右:
尽管图片已经转为灰度图,且过滤了大部分杂线,可是图片关键像素丢失严重,识别结果天然也不尽如人意,结果:“VH.”。
此时咱们根据图片的实际状况,人为调整程序中预设的阈值到130,再观察:,此次的图片转换效果显著,咱们再次查看识别结果,“VHRU”,与肉眼观察到的别无二致,合乎要求。
可见验证码的识别除了用好识别模块,还须要在必要时引入PIL(图片处理模块)进行图片预处理,预处理过程当中的阈值等设定也存有技巧,不一样的参数设定,会彻底影响最终的识别率。
现实中不少网站的验证码要远比例子中的来得复杂,尤为是12306购票网站的验证码,使行为验证码开始高速发展,肉眼分辨起来都异常困难,这就要求咱们对验证码的识别技术要不断提高,才能突破网站逐步升级的反爬虫机制。