本文所使用的验证码识别的方法很是暴力,高手可忽略。对于在客户端实现的“伪验证码”或使用静态图片的验证码,本文不做讨论。对于验证码的识别,一直觉得,只要足够的样本,就能够分析出验证码的特征,从而进行分门别类,再经过和样本作比较,就能够得出正确验证码。这里简单而暴力的验证一下这个一直想验证而没有行动过的想法。作实验的网站是某体检机构,由于它生成的验证码颇有规律(不肯定是否是静态文件,但就能够当成是算法随机生成的),每一个字符的位置相对固定,虽然每一个字符的颜色和背景都不同,可是背景颜色很相近,没有干扰线,更重要的是,它和中国不少不少网站的验证码很相似。相关代码和文件(某体检机构网站忽略):verification code identified。
暴力步骤:python
85%左右的正确率,暴力破解其实也能够了,改进下有可能达到90%以上。验证码是网络的一道屏障,破解了验证码后,不少邪恶的事情均可以作。固然这里介绍的是最笨的方法,对于复杂的验证码还不能识别,还须要更复杂点的方法。本文仅是图片识别技术的讨论,相关的代码等仅用于学习,不得用于作非法事情。
POST AT: http://luoguochun.cngit