如何识别图片验证码?

全自动区分计算机和人类的图灵测试(Completely Automated Public Turing test to tell Computers and Humans Apart,简称CAPTCHA),俗称验证码,是一种区分用户是计算机和人的公共全自动程序。验证码的主要目的是强制人机交互来抵御机器自动化攻击,为了确保服务器系统的稳定和用户信息的安全,愈来愈多的网站采用了验证码技术。图片验证码是目前最经常使用的一种。算法

最近在一个爬虫项目中遇到了验证码,须要机器自动识别绕过。这些验证码大都分辨率都较低,自己信息量不大。在网上调研了资料和文献后,分别采用OCR识别和模板库匹配方法对不一样类型验证码进行了识别。主要过程能够分解为三个步骤:1.图片清理,2.字符切分,3.字符识别。如下结合工做经验和调研内容讲解一些经常使用的验证码识别方法和过程。api

1.图片清理数组

图片清理是为接下来的机器学习或模板匹配阶段作准备的,指经过灰度化、二值化、干扰点清理等过程,获得比较干净的图片数据,具体样例见下表。安全

1.1 彩色去噪服务器

在计算机中使用最多的 RGB色彩空间,分别对应红、绿、蓝三种颜色,经过调配三个份量的比例来组成各类颜色。以最多见的32位颜色为例,一个份量是用8位来表示,最大值是255,灰度图是指组成颜色的三个份量相等。原始彩色图片包含的信息量是最大的,若是验证码图片中有一些利用颜色反差加的干扰点或者线条,最好能在该阶段作初步清理。比较简单的一种处理方法是采用33矩阵对图像进行平滑处理,即对每一个像素取他所在33矩阵全部点的RGB均值,分别做为新的RGB值。稍微作点优化,取3*3矩阵中RGB三维欧式距离最接近均值的点做为新值。网络

1.2 灰度化机器学习

在彩色电视机系统中,一般使用一种叫 YUV 的色彩空间,其中Y表示亮度信号,对于人眼来讲,亮度信号(Y)是最敏感的,若是将彩色图像转换为灰度图像,仅仅须要转换并保存亮度信号就能够。从RGB到YUV空间的Y转换有一个很著名的心理学公式:Y = 0.299R + 0.587G + 0.114B。函数

而实际应用时,将系数缩放1000倍来实现整数运算:Gray = (R299 + G587 + B114 + 500) / 1000 。注意后面那个除法是整数除法,因此须要加上500来实现四舍五入。该公式的另外一个简化变种也很流行:Gray = (R30 + G59 + B11 + 50) / 100。更快的算法是采用移位代替除法,因此能够将系数缩放成 2的整数幂,再作右移操做。该整数取7从精度和速度上最合适:Gray = (R0.2992^7 + G0.5872^7 + B0.1142^7)>>7 = (R38 + G75 + B*15)>>7学习

1.3 二值化测试

为了简化接下来的计算,须要把灰度图片转化成黑白二值图。默认状况下值大于127的像素点被设置为白色,其他像素点设置为黑色。固然,这个阈值也须要根据图片的实际状况计算调整。通常采用直方图统计肯定动态阈值的方法比较靠谱,白底黑字的取直方图靠左边的波谷位置做为阈值,黑底白字则取直方图右边的波谷位置做为阈值,将背景和字符做很好的区分。

1.4 底色统一

若是是黑底白字的图片,须要转换成白底黑字,如以上图B。

1.5 干扰点清理

在黑白二值图片去噪阶段,经常使用的去噪方法为联通性去噪,一般采用8向联通来计算连通点个数,若某个点的连通点数目小于预设的阀值,则认为这些点都是噪声点。这一简单粗暴的清理方法,一般状况下是很是有效的。

2 字符切分

该阶段对前期预处理后的图片进行切割处理,定位和分离出整幅图片中的每一个孤立的字符主体部分。主要采用X轴和Y轴投影的方法,即统计对应坐标上黑色像素点的个数。对于图片

获得的X轴和Y轴投影分别以下。利用X轴投影能够切割出单独的字符,再分别利用Y轴投影,裁剪掉顶部和底部的空白部分。

  1. OCR软件识别

咱们使用的是开源的OCR识别引擎Tesseract,初期由HP实验室研发,后来贡献给了开源软件业,后经由Google进行优化并从新发布。调用代码以及识别效果以下:

api = tesseract.TessBaseAPI()
api.Init(".","eng",tesseract.OEM_TESSERACT_ONLY) #初始化
api.SetPageSegMode(tesseract.PSM_SINGLE_LINE) #设置为单行字符串模式
api.SetVariable("tessedit_char_whitelist", whitelist) #设置白名单
stringOCR = tesseract.ProcessPagesBuffer(mBuffer, len(mBuffer), api)

该方法的优势是:开发量少;比较通用,适合于各类变形较少的验证码;对于扭曲不严重的字母和数字识别率高。缺点也很明显:对于扭曲的字母和数字识别率大大下降;对于字符间有粘连的验证码几乎难以正确识别;很难针对特定网站的验证码作定制开发。

4.模板库匹配

4.1 创建字符模板库

首先须要针对目标网站收集大量的验证码;而后根据上一章节的方法,进行图片清理;最后按照固定的长宽值切分出字符模板图,保存文件名带上对应字符的标记。

4.2 字符匹配

首先,把目标验证码图片按字符个数切分,这里的图片切分方法必须与模板制做时的切分方法一致,获得与模板图一样大小的字符图。接下来一般的作法是使用汉明距离或编辑距离定义类似度,并用KNN方法获得K个最类似的字符,最后从K个字符中选取出现次数最多的那个做为匹配结果。参考了文献[1]中K取值和字符识别率的变化关系(以下图)。

而后,咱们把K取值为5。而且把类似度从新定义为:matchScore = dotMatch^2 / (dotCaptcha * dotTemplate),其中dotMatch为验证码字符图与模板图对应位置都是黑色点的个数,dotCaptcha为验证码字符图中黑色点个数,而dotTemplate为模板图中黑色点个数。取这个分母是为了防止某些黑色点较多的模板图在匹配度计算中始终获得较大值。识别效果以下表:

该方法的优势是:原理简单直观;能够针对不一样网站定制优化;对于扭曲的字母和数字识别率较高。缺点是:开发量大,须要定制开发;须要收集大量的字符图片库;字符变化不少的状况,匹配次数增长速度降低;对于字符有粘连的图片识别率低;

  1. 支持向量机

支持向量机通俗来说是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略即是间隔最大化,最终可转化为一个凸二次规划问题的求解。实际应用上,每每遇到的是非线性可分得状况,所以经过核函数把低维向量映射到更高维空间,使得样本知足线性可分。

验证码识别问题其实是其中单个字符识别问题,而在字符可穷举的状况下,好比只有英文字符和数字,单个字符识别问题实际上是一个分类问题。一个英文字母或数字表示一类,而验证码中切分后获得的单个字符须要被机器自动分到某一类。通常状况下,把单个字符的灰度图片转成整形数组,数组的每个元素表示图片的一个像素,即一个特征维度。咱们切分获得的图片大小为10x16=160像素,即有160个特征,当特征数量多且特征之间关系不明确时,采用支持向量机分类比较合适。

  1. 神经网络

以上验证码识别都依赖于字符切分,切分的好坏几乎直接决定识别的准确程度。而对于有字符粘连的图片,每每识别率就会低不少。目前验证码识别最早进的是谷歌在识别“街景”图像中门牌号码中使用的一套的算法。该算法将定位、分割和识别等几个步骤统一块儿来,采用一种“深度卷积神经网络”(deep convolutional neural network)方法进行识别,准确率能够达到99%以上。谷歌拿自有的reCAPTCHA验证码作了测试,结果发现,对于难度最大的reCAPTCHA验证码,新算法的准确率都达到 99.8%,这可能也好于大多数人为验证。

验证码做为一种辅助安全手段在Web安全中有着特殊的地位,了解验证码识别的方法和原理,不只有利于绕过验证码抓取网站内容,并且有利于设计更安全合理的验证码。

网易云安全(易盾)行为式验证码超10亿次完美验证,坚固守卫网站安全第一道防线。网易云易盾提供新一代网站验证码,包括智能验证码、滑动验证码等形式,验证码接口稳定性 99.9%,感知威胁可智能切换验证难度,告别繁琐验证,保护业务安全,点击可免费试用。

文章来源: 网易云社区

相关文章
相关标签/搜索