JB的Python之旅-爬虫篇-图形验证码(1)-- tesserocr

时间 2019-11-09

标签 python 之旅爬虫图形验证码 tesserocr 栏目 Python 繁體版

原文原文链接

前言

写爬虫有一个绕不过去的问题，那就是验证码，好比像某乎，若是不先登录，连里面的内容数据都爬不到，而验证码就是网站进行发爬虫的一种措施，随着技术的发展，验证码愈来愈复杂，爬虫的工做愈来愈艰苦，因此此次就来说解，怎么来识别验证码；（听上去口气很大的感受）
php

先来看看，目前遇到的验证码种类有哪些？

1）图形验证码
图形验证码应该是最简单的一种验证码，这种验证码是最先出现，也是目前最多见的，通常组成规则是4个字母或数字或混合组成; git

2）滑动验证码
github

3）点触验证码
windows

Ok,上面这3种验证码方式，应该是目前PC上比较常见的验证码种类的，固然手机app上还会有手势验证，宫格验证，语音验证等等，这里就不介绍，主要针对上面常见的3种介绍；服务器

1 图形验证码

某乎的验证码有2种，一种是图形验证码，一种是点触验证码，通过测试发现，一开始是显示图形验证码，但当登录退出次数逐渐增多，就会变成点触验证码，这种验证码的切换机制，也算是防爬虫的一种手段，闲话很少说，先喵喵：
app

某乎连接:https://www.zhihu.com/signup?next=%2F
打开后默认是在注册页面，点击下登录按钮，若是仍是没有验证码，刷新几回网页就好了； scrapy

下面这种，下2篇文章会介绍；工具

2 信息介绍

识别图形验证码须要安装tesserocr这个库，下面介绍下tesserocr；
tesserocr是Python的一个OCR识别库，但实际上是对tesseract作了一层Python Api的封装，
核心仍是tesseract，因此在安装tesserocr以前，须要先安装tesseract;post

等下，懵逼中，tesserocr这个能看明白，是一个库，但OCR是什么？tesseract又是什么？
学习

OCR
OCR,全称叫 Optical Character Recognition，中文翻译叫光学字符识别，是指经过扫描字符，经过其形状将其翻译成电子文本的过程；

举例:
当有一个图形验证码，先使用OCR技术将其转化成电子文本，而后爬虫将识别的结果提交到服务器，便达到自动识别验证码的过程；

tesseract
tesseract是google开源的OCR

OK,貌似对概念有所理解了，还有个疑问，以前有在图形识别领域，还有个opencv的玩意，那这二者有什么区别？
opencv专一机器视觉
tesseract专一字符识别

因此从领域来讲，opencv更广，而图形验证码，opencv也能够作，但杀鸡焉用牛刀~

3 环境准备

windows下的安装

在Windows下，要先下载tesseract，它为tesserocr提供了支持；
tesseract下载地址：https://digi.bib.uni-mannheim.de/tesseract/
打开后，能够看到各类exe的列表，能够随便挑选;
其中文件名中带有dev的为开发版本，不带dev则为稳定版本，例如jb是下载 tesseract-ocr-setup-3.05.01.exe；

下载后双击，一路点击，直到出现下面这个页面

这里须要勾选红框里的Additional language data(download)，这个选项是安装OCR识别支持的语言包，这样OCR就能够识别多国语言，而后再一路点击NEXT便可，由于要下载语言包，因此须要点时间，大概10-20分钟左右，跟网速有关，若是不须要支持多国语言的话，也能够不勾选，自由选择
须要说明：默认包含英文字库
若是，以为一次下载那么多语言占空间，又或者以为网速慢，也能够选择单独安装中文字库;
字库下载地址：https://github.com/tesseract-ocr/tessdata
打开后，直接搜索chi_sim.traineddata，这个表明的就是中文，下载下来;
而后找到刚刚tesseract安装目录，里面会有一个叫tessdata的目录，直接把刚下载的语言包放到这个目录下便可；

如何验证tesseract是否安装成功？直接cmd下输入tesseract便可；
成功会直接显示信息;

若是提示'tesseract' 不是内部或外部命令，则是由于没有配置环境变量，手动把tesseract根目录配置到path参数下便可，这块不详细说明；

到此为止，tesseract安装成功啦~

接下来就安装tesserocr，直接pip命令便可：

pip3 install tesserocr install
复制代码

但jb在安装的时候，直接报错：

试过不少种方式，就算使用conda install tesserocr,也同样报错。

经历千辛万苦，终于找到一条可行的命令：

conda install -c simonflueckiger tesserocr
复制代码

最终就安装上tesserocr啦~

如何验证是否真的安装了？很简单，直接import tesserocr，不报错就说明安装好了；

对了，若是有同窗不知道conda这条命令的话，请访问下面的连接，直接搜索scrapy安装，会有介绍conda：
https://juejin.im/post/5afcb91251882565bd257097|

OK，windows下的tesserocr跟tesseract的环境已经安装好了；

别着急，顺便介绍下Linux跟Mac，但如下方式均未通过jb验证，信息来源于网上，仅供参考：

Linux下的安装
对于Liunx来讲，不一样系统已经有了不一样的发行包了，它可能叫作tesseract-ocr或者tesseract，直接用对应的命令安装便可;

Ubuntu、Debian和Deepin
在Ubuntu、Debian和Deepin系统下，安装命令以下：

sudo apt-get install-y tesseract-ocr libtesseract-dev libleptioica-dev
复制代码

CentOS、Red Hat 在CentOS和Red Hat系统下，安装命令以下：
```
yum install -y tesseract
复制代码
```

在不一样发行版本运行如上命令，便可完成tesseract的安装；
安装完成后，即可以调用tesseract命令；
默认也是指安装英文语言，若是须要安装其余语言，请看下上面Windows的介绍，同样的处理方案，这里不重复说明;

接下来就是安装tesserocr，直接使用pip安装：

pip3 install tesserocr pillow
复制代码

Mac下的安装
在Mac下，首先使用Homebrew 安装ImageMagick 和tesseract库：

brew install imagemagick
brew install tesseract --all-languages
复制代码

接下来再安装tesserocr便可：

brew install tesserocr pillow
复制代码

4 识别测试

为了方便测试，须要把验证码的图片保存到本地；
打开weibo.com，随便输入帐号密码，会提示输入验证码，打开开发者工具，找到验证码元素，它的src属性就是一个连接，copy出来直接打开，会看到一个验证码，并且刷新的验证码会变化，由此推断这是个验证码的接口，右键保存验证码便可，就获得一张验证码；
验证码连接：
https://login.sina.com.cn/cgi/pin.php?r=9967937&s=0&p=gz-d0dc363f6a4523cbd602a5a10f00c59b4784

ok,完事具有，那就开始吧，新建项目，把验证码放到项目根目录下；
用tesserocr库来识别验证码：

import tesserocr
from PIL import Image

#新建Image对象
image = Image.open("3.jpg")
#调用tesserocr的image_to_text()方法，传入image对象完成识别
result = tesserocr.image_to_text(image)
print(result)
复制代码

结果，运行后，啥都没有？？？
接下来jb陷入了困扰，包括调试，找各类文档，最终，把上面调试的验证码换了一个：

替换下图片，再执行一次代码：

OK，看到是有数据了，不过输出的是MEEE，跟验证码的ME8E仍是有点不同；

目前两个问题：
1）微博的验证码识别失败，输出空
2）第二章验证码部分词识别有误

心想，这库是网上都推荐用的，是Google开源的，理论上没问题，并且人家也都这么用，为何这里就有问题？难道还须要额外的处理？

怀着疑问跟梦想，继续学习；

题外话： tesserocr还有一个更加简单的方法，这个方法可直接将图片文件转换成字符串，代码以下：

import tesserocr
print(tesserocr.file_to_text("1.jpg"))
复制代码

结果也跟上面的同样，但网上不建议这么用，缘由是听说这种识别效果不如上一种的好；

关于微博验证码为空，使用tesseract输出下缘由：

tesseract 图片路径 output 
复制代码

leptonica 在解析时没有检测到任何dpi；

5 验证码处理

网上找了下信息，好比这张验证码：

多是验证码内的多余线条干扰了图片的识别；

又好比微博这张：

多是字体位置，跟图案等因素干扰了图标的识别；

解决方案仍是有的，须要对图片进行额外的处理，如转灰度，二值化等操做；

转灰度处理：利用Image对象的convert()方法参数传入L，便可将图片转成为灰度图像：

from PIL import Image

image = Image.open("1.jpg")
image = image.convert('L')
image.show()
复制代码

图片成功转灰了；此时咱们再校验一下，发现校验仍是MEEE，失败；

传入1的后，便可将图片进行二值化处理：
（二值化是指将图像上的像素点的灰度值设置为0或255，也就是将整个图片呈现出明显的只有黑和百的视觉效果）

import tesserocr
from PIL import Image

image = Image.open("1.jpg")
image = image.convert('1')
image.show()
复制代码

这个一看，比上面更模糊了，理所固然的，校验结果会错的更加离谱：

二值化的阈值是能够指定的，上面的方法采用的是默认阈值127；但通常不多直接转换原图，缘由如上可看到，错误的更加离谱了；

通常是先将原图转为灰度图像，而后再指定二值化的阈值，代码以下：

import tesserocr
from PIL import Image

#新建Image对象
image = Image.open("1.jpg")
#进行置灰处理
image = image.convert('L')
#这个是二值化阈值
threshold = 150   
table = []

for i in  range(256):
    if i < threshold:
        table.append(0)
    else:
        table.append(1)
#经过表格转换成二进制图片，1的做用是白色，否则就所有黑色了
image = image.point(table,"1")
image.show()
result = tesserocr.image_to_text(image)
print(result)
复制代码

这里说明下，可能有同窗对256不明白，这是什么？
首先，咱们是把图片置灰处理，灰度图像是一种具备从黑到白256级灰度色阶或等级的单色图像；
对于灰度图像利用阈值获得二值化的图像，也就是说，咱们设定了一个阈值，从0到256，若是灰度图像少于阈值则设置0，大于阈值则设置1，0是黑色，1是白色，这样作，就能够把一个灰度图彻底转换二值化图；
可能仍是懵逼，直接贴图：
原图

灰度图：

二值图：

在灰度图上，部分色彩是介于白色跟黑色之间，因此经过设置阈值的方法，把这些中间色彩所有转换成黑色跟白色；

ok,扯远了，上面把验证码二值图后是长这样的：

而校验结果：

good，有所变化，至少不是MEEE了，那咱们继续调，调到一个合适的值;
调了半天，jb放弃了，缘由是这个8，无论怎么调都调不到一个合适的值，一直在S、R、B之间徘徊；

JB换了个验证码：

上面一样的代码，无修改，二值图以下：

校验结果：

oh year，这个能校验出来了~

还记得咱们一开始那个微博验证码吗？咱们也来试试，处理后的验证码是这样的~

结果校验的时候，基本上都空，只有在138的时候会有一点点识别效果，可是压根不搭边；

对比了下，微博验证码跟上面能识别的验证码：

能别识别的，是实心，而不能被识别的，是空心；
实心的好处在于，图像处理后，黑白分明，可是空心在图像处理后，因为线条原本就很细，处理后可能都识别不出来了；

6 中文状况如何？

更新于18.6.11
忽然想起，上面安装的时候有说起到安装不一样语言包，那若是要看看其余语言，怎么搞？所以就补充这点了~

先上图~

直接上代码：

import tesserocr
from PIL import Image

image = Image.open("juejin.jpg")
result = tesserocr.image_to_text(image, lang='chi_sim')
print(result)
复制代码

由于默认是英文，因此英文不须要指定lang，但中文就须要啦，chi_sim就是简体中文了；

从输出的结果来看，小册那估计有个sale，否则估计开源库也能匹配出来~
但依然能够看出，中文也不是很精准~

这里说明下，中午不须要置灰跟二值哈，否则颜色加深了，估计更难辨别了~

7 小结

本章学习了tesserocr及tesseract的环境搭建，以及如何对图形验证码进行噪音处理，而且讲解灰色图跟二值图的概念；

8 疑难杂症

实际发现，tesserocr仅能解决实心的验证码，对于空心的验证码，依然一筹莫展，那怎么办呢？
既然图像识别存在偏差，那咱们就放弃这条路，而是经过其余的方式来获取这个验证码；

好比直接找到生成这验证码的代码二次转化获取验证码，深度学习训练机器识别；

下章预告：
如何获取验证码的生成代码二次处理获取验证码

18.6.11更新上面的话题，留到下下章处理，下章介绍下收费的OCR~

谢谢你们~