使用python以及工具包进行简单的验证码识别

时间 2019-11-07

原文原文链接

识别数字验证码

首先咱们准备素材，4张验证码图片以下：html

第一步：python

　　打开图像。app

im = Image.open('temp1.jpg')

第二步： ide

　　把彩色图像转化为灰度图像。彩色图像转化为灰度图像的方法不少，这里采用RBG转化到HSI彩色空间，采用I份量。函数

imgry = im.convert('L')

灰度看起来是这样的优化

第三步：google

　　须要把图像中的噪声去除掉。这里的图像比较简单，直接阈值化就好了。咱们把大于阈值threshold的像素置为1，其余的置为0。对此，先生成一张查找表，映射过程让库函数帮咱们作。spa

threshold = 140
table = []
for i in range(256):
    if i < threshold:
        table.append(0)
    else:

阈值为何是140呢？试出来的，或者参考直方图。

映射过程为code

 out = imgry.point(table,'1')

此时图像看起来是这样的htm

第四步：

　　将图片中的字符转化为文本。采用pytesser 中的image_to_string函数

text = image_to_string(out)

第五步：

　　优化。根据观察，验证码中只有数字，而且上面的文字识别程序常常把8识别为S。所以，对于识别结果，在进行一些替换操做。

#因为都是数字
#对于识别成字母的 采用该表进行修正
rep={'O':'0',
    'I':'1','L':'1',
    'Z':'2',
    'S':'8'

   for r in rep:
        text = text.replace(r,rep[r])

好了，text中为最终结果。

7025
0195
7039
6716

注：程序须要 PIL库和 pytesser库支持。

完整代码：

import Image
import ImageEnhance
import ImageFilter
import sys
from pytesser import *
 
# 二值化
threshold = 140
table = []
for i in range(256):
    if i < threshold:
        table.append(0)
    else:
        table.append(1)
 
#因为都是数字
#对于识别成字母的 采用该表进行修正
rep={'O':'0',
    'I':'1','L':'1',
    'Z':'2',
    'S':'8'
    };
 
def  getverify1(name):
    
    #打开图片
    im = Image.open(name)
    #转化到亮度
    imgry = im.convert('L')
    imgry.save('g'+name)
    #二值化
    out = imgry.point(table,'1')
    out.save('b'+name)
    #识别
    text = image_to_string(out)
    #识别对吗
    text = text.strip()
    text = text.upper();
 
    for r in rep:
        text = text.replace(r,rep[r])
 
    #out.save(text+'.jpg')
    print text
    return text
getverify1('v1.jpg')
getverify1('v2.jpg')
getverify1('v3.jpg')
getverify1('v4.jpg')

完整代码