Python tesserocr模块使用示例

操做系统:Win10 1709  X64python

python版本:3.6.5windows

依赖模块:PIL、tesserocr。app

  须要说明的是,在windows系统上PowerShell经过PIP3 install tesserocr安装验证码识别模块时,须要先安装Tesseract一款由HP实验室开发由Google维护的开源OCR(Optical Character Recognition , 光学字符识别)引擎,与Microsoft Office Document Imaging(MODI)相比,咱们能够不断的训练的库,使图像转换文本的能力不断加强。)可执行文件。工具

  以中国知网的注册页面为例,咱们常被要求输入这类简单的字母组成,背景含不少杂线的验证码,以下图所示:网站

咱们对验证码另存为到本地代码所在目录,取名:test.png.spa

下图是直接用对应模块识别的代码示例:操作系统

import tesserocr
from PIL import Image
image=Image.open('test.png')

image.show()  #能够打印出图片,供预览
print(tesserocr.image_to_text(image))

  

  原始图片尺寸较小,极少状况下若是没法正常识别,能够借助图片处理工具PIL模块进行图片等比例放大后保存。此例中直接运行上述代码,结果为“VHIHI”,即便是肉眼可见较为清晰的验证码,若是图片未经处理直接交由tesserocr解析,也可能识别率很低。code

  一般状况下,咱们还须要作些额外的图片处理,如转灰度图,二值化等。blog

利用Image对应的convert()方法传参L,便可将图片转为灰度图。图片

image=image.convert('L')

image.show()

传入1便可完成二值化,以下:

image=image.convert('1')

image.show()

固然咱们更多时候须要根据图片的实际状况指定二值化的阈值,好比咱们将阈值设定为80,先转灰度图,再二值化,代码以下:

import tesserocr
from PIL import Image
image=Image.open('test.png')
image=image.convert("L")
threshold=80
table=[]
for i in range(256):
    if i <threshold:
        table.append(0)
    else:
        table.append(1)
image=image.point(table,'1')
image.show()
print(tesserocr.image_to_text(image))

观察处处理后图片如右:

  尽管图片已经转为灰度图,且过滤了大部分杂线,可是图片关键像素丢失严重,识别结果天然也不尽如人意,结果:“VH.”。

此时咱们根据图片的实际状况,人为调整程序中预设的阈值到130,再观察:,此次的图片转换效果显著,咱们再次查看识别结果,“VHRU”,与肉眼观察到的别无二致,合乎要求。

可见验证码的识别除了用好识别模块,还须要在必要时引入PIL(图片处理模块)进行图片预处理,预处理过程当中的阈值等设定也存有技巧,不一样的参数设定,会彻底影响最终的识别率。

  现实中不少网站的验证码要远比例子中的来得复杂,尤为是12306购票网站的验证码,使行为验证码开始高速发展,肉眼分辨起来都异常困难,这就要求咱们对验证码的识别技术要不断提高,才能突破网站逐步升级的反爬虫机制。

相关文章
相关标签/搜索