前言:微信
在对网站数据进行爬取的过程当中,因为访问过于频繁或是其余的缘由,常常会出现输入验证码进行验证的状况,面对这种验证码验证的问题,通常有三种解决方法:app
第一种,最简单也是最费时的,手动输入验证码;网站
第二种,使用一些公司的API接口对验证码进行判别和输入;google
第三种,使用tessract对验证码进行识别;编码
在这里,咱们使用tessract对验证码进行识别。spa
Tesseract简介:.net
tesseract是谷歌开源的一个ORC组件,并支持语言的训练,支持中文的识别(须要下载语言包)ssr
Python中使用Tesseract:code
在Python中安装Tesseract一共分为三步:orm
一、pip安装pytesseract及其余依赖库
pip pytesseract
在使用pytesseract中须要读取图像,因此还须要安装Pillow
二、安装tesseract
下载并安装:https://tesseract-ocr.googlecode.com/files/tesseract-ocr-setup-3.02.02.exe
三、修改tesseract.py文件
# tesseract_cmd = 'tesseract'
tesseract_cmd = "C:/Program Files (x86)/Tesseract-OCR/tesseract.exe" # tesseract的安装目录
防止提示没有匹配的文件
# f = open(output_file_name)
f = open(output_file_name,encoding='utf-8')
防止提示Unicode编码错误
作完这三步,就可使用tesseract基本的功能了。
下面来看看在实际的代码中如何利用tesseract进行验证码识别:
原始的验证码图像为:
示例验证码为:
#coding:utf-8
'''
验证码识别
'''
from PIL import Image,ImageFilter,ImageEnhance
import pytesseract
# 二值化
threshold = 140
table = []
for i in range(256):
if i < threshold:
table.append(0)
else:
table.append(1)
# 识别验证码
def get_vcode():
# 打开原始图像
image = Image.open("getimgbysig.jpg")
# image = Image.open("e:/a.jpg")
# 将图像转为灰度,并另存为
bimage = image.convert('L')
bimage.save('g'+"getimgbysig.jpg")
# 进行二值化处理,并另存为
out = bimage.point(table,'1')
out.save('b'+"getimgbysig.jpg")
icode = pytesseract.image_to_string(image)
bcode = pytesseract.image_to_string(bimage)
vcode = pytesseract.image_to_string(out)
print(icode,bcode,vcode)
if __name__ == '__main__':
get_vcode()
结果为:7364
对于简单、清晰的数字,没有通过任何训练的Tesseract仍是可以很精确地识别出来。而对于那些模糊、变形的数字、字母或是中文,就须要先对Tesseract进行训练了,暂且不表。
本文分享自微信公众号 - 州的先生(zmister2016)。
若有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一块儿分享。