使用Tesseract，验证码识别So Easy

前言：微信

在对网站数据进行爬取的过程当中，因为访问过于频繁或是其余的缘由，常常会出现输入验证码进行验证的状况，面对这种验证码验证的问题，通常有三种解决方法：app

第一种，最简单也是最费时的，手动输入验证码；网站

第二种，使用一些公司的API接口对验证码进行判别和输入；google

第三种，使用tessract对验证码进行识别；编码

在这里，咱们使用tessract对验证码进行识别。spa

Tesseract简介：.net

tesseract是谷歌开源的一个ORC组件，并支持语言的训练，支持中文的识别（须要下载语言包）ssr

Python中使用Tesseract：code

在Python中安装Tesseract一共分为三步：orm

一、pip安装pytesseract及其余依赖库

pip pytesseract

在使用pytesseract中须要读取图像，因此还须要安装Pillow

二、安装tesseract

下载并安装：https://tesseract-ocr.googlecode.com/files/tesseract-ocr-setup-3.02.02.exe

三、修改tesseract.py文件

# tesseract_cmd = 'tesseract'

tesseract_cmd = "C:/Program Files (x86)/Tesseract-OCR/tesseract.exe" # tesseract的安装目录

防止提示没有匹配的文件

# f = open(output_file_name)

f = open(output_file_name,encoding='utf-8')

防止提示Unicode编码错误

作完这三步，就可使用tesseract基本的功能了。

下面来看看在实际的代码中如何利用tesseract进行验证码识别：

原始的验证码图像为：

示例验证码为：

#coding:utf-8

'''

验证码识别

'''

from PIL import Image,ImageFilter,ImageEnhance

import pytesseract

# 二值化

threshold = 140

table = []

for i in range(256):

if i < threshold:

table.append(0)

else:

table.append(1)

# 识别验证码

def get_vcode():

# 打开原始图像

image = Image.open("getimgbysig.jpg")

# image = Image.open("e:/a.jpg")

# 将图像转为灰度，并另存为

bimage = image.convert('L')

bimage.save('g'+"getimgbysig.jpg")

# 进行二值化处理，并另存为

out = bimage.point(table,'1')

out.save('b'+"getimgbysig.jpg")

icode = pytesseract.image_to_string(image)

bcode = pytesseract.image_to_string(bimage)

vcode = pytesseract.image_to_string(out)

print(icode,bcode,vcode)

if __name__ == '__main__':

get_vcode()

结果为：7364

对于简单、清晰的数字，没有通过任何训练的Tesseract仍是可以很精确地识别出来。而对于那些模糊、变形的数字、字母或是中文，就须要先对Tesseract进行训练了，暂且不表。

本文分享自微信公众号 - 州的先生（zmister2016）。
若有侵权，请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一块儿分享。