python 简单图像识别--验证码

时间 2019-12-05

原文原文链接

python 简单图像识别--验证码php

记录下，准备工做安装过程非常麻烦。html

首先库：pytesseract，image，tesseract，PILpython

windows安装PIL，直接exe进行安装更方便（https://files.cnblogs.com/files/Oran9e/PILwin64.zip）（https://files.cnblogs.com/files/Oran9e/PILwin32.zip）windows

安装 image：pip install image服务器

安装 pytesseract：pip install pytesseractcookie

安装 tesseract：pip install tesseract (安装 tesseracr，这里是个坑，须要安装到C盘里C:\Program Files (x86)\Tesseract-OCR，也就是默认路径，否则运行 python 代码的时候调用不了 tesseract.exe )session

修改 tesseract.py 代码：\python\Lib\site-packages\pytesseract\tesseract.pyapp

tesseract_cmd 改为 tesseract.exe的路径，进行调用。jsp

tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'

准备完上面的工做，基本上就能够进行简单的验证码识别了。post

代码：

#coding=utf-8
from PIL import Image
import pytesseract
image = Image.open('2.jpg')
orange = pytesseract.image_to_string(image)
print orange

下篇文章将会写个自动识别验证码，实现自动登录的小脚本。

python 简单图像识别--验证码Ⅱ

在实现自动登录的时候，咱们首先须要作到识别验证码，上篇文章讲到如何识别验证码（http://www.cnblogs.com/Oran9e/p/8799194.html）。

通常状况下，咱们见到的验证码是服务器动态生成的，这个时候咱们要作的就是把验证码下载到本地，而后就能够像上篇文章同样进行识别，为自动登录打下坚实的基础。

下面就记下困扰我两天的问题，把坑说明一下。

原本是想把 cnvd 的验证码进行下载识别（http://www.cnvd.org.cn/jcaptcha/jpeg/imageCaptcha?id=1523686908）

可是 cnvd 的网站是有反爬虫机制的，打印下 get 到的内容，是<script>***</script> js 代码，所以我认为是不能直接下载的，固然也存在右键另存为了哈。

对比下两个连接打印出来的内容（http://lab1.xseclab.com/vcode7_f7947d56f22133dbc85dda4f28530268/vcode.php）

上图能够看到，直接打印的内容是验证码图片的内容，所以这个时候咱们能够进行下载，下载的时候是以二进制的方式展示，先保存到本地。

代码以下：

#coding=utf-8
from PIL import Image
import pytesseract
import requests
url = 'http://lab1.xseclab.com/vcode7_f7947d56f22133dbc85dda4f28530268/vcode.php'   #验证码URL
headers = {'User-Agent':"Mozilla/5.0 (Windows NT 6.3; Win64; x64; rv:56.0) Gecko/20100101 Firefox/56.0"}   #headers
url_get = requests.request("GET",url,headers=headers,verify=False)            #发送请求
img = url_get.content              #返回的数据以二进制的方式展示
with open('C:\Users\ww\Desktop\imageCaptcha.jpg',"wb") as f:        #选择保存图片路径和格式
	f.write(img)        #保存
image1 = Image.open("C:\Users\ww\Desktop\imageCaptcha.jpg")     #Image模块打开图片
output = pytesseract.image_to_string(image1)     #识别验证码
print str(output)     #打印验证码

固然，下载验证码也不止上面的一种方式，也能够经过截图保存验证码进行识别。有兴趣能够试试。

先记录到这里，争取晚上写出识别验证码自动登录的脚本。

python 简单图像识别--验证码Ⅲ

实现自动登录网站

登陆学校图书馆管理系统为例，作一个简单的例子。python识别简单的没有干扰的纯数字验证码仍是能够的，可是识别字母数字再加上干扰因素，误报率很高，所以这个我是采用”人工识别“，人工输入。

首先得明白cookie的做用，cookie是某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据。所以咱们须要用Cookielib模块来保持网站的cookie。

登陆学校图书馆管理系统登录（http://122.207.221.227:8080/opac/login），验证码（http://122.207.221.227:8080/kaptcha/goldlib）

能够发现这个验证码是动态更新的每次打开都不同，通常这种验证码和cookie是同步的。想识别验证码确定是吃力不讨好的事，所以咱们的思路是首先访问验证码页面，保存验证码、获取cookie用于登陆，而后再直接向登陆地址post数据。

先分析登陆页面须要post的request和header信息

从中能够看出须要 post 的url并非访问的页面，而是(http://122.207.221.227:8080/pages/include/checklogin.jsp)

其中须要提交的表单数据中 username 和 password 分别用户名和密码。

分析了上面的因素，下面就直接贴出代码。

#coding=utf-8
from PIL import Image
import pytesseract
import urllib2
import urllib
import PIL.ImageOps
import requests
import cookielib
import re
import sys
'''图书馆登录'''
reload(sys)
sys.setdefaultencoding("utf-8")  #防止中文报错
url = 'http://122.207.221.227:8080/pages/include/checklogin.jsp'
capchaurl = 'http://122.207.221.227:8080/kaptcha/0.5458022691509324'
cookie = cookielib.CookieJar()   # 将cookies绑定到一个opener  cookie由cookielib自动管理
handler = urllib2.HTTPCookieProcessor(cookie)
opener = urllib2.build_opener(handler)
username='xxxxx'
password='xxxxx'  #用户名，密码
callNo = 'callNo'
picture = opener.open(capchaurl).read()   # 用openr访问验证码地址,获取cookie
local = open('C:\Users\ww\Desktop\goldlib.jpg',"wb")   # 保存验证码到本地
local.write(picture)
local.close()
secrecode = raw_input('yanzhengma: ')   # 输入验证码
postData = {
    'username': username,
	'password': password,
	'loginType': callNo,
	'kaptcha': secrecode,
}   # 抓包信息 构造表单
headers = {
    'Accept': '*/*',
	'Accept-Encoding': 'gzip, deflate',
	'Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
	'Connection': 'keep-alive',
	'Content-Length': '64',
	'Content-Type': 'application/x-www-form-urlencoded',
	'Host': '122.207.221.227:8080',
	'Referer': 'http://122.207.221.227:8080/opac/login',
	'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64; rv:59.0) Gecko/20100101 Firefox/59.0',
	'X-Requested-With': 'XMLHttpRequest',
}   # 根据抓包信息 构造headers
data = urllib.urlencode(postData)  # 生成post数据 ?key1=value1&key2=value2的形式
request = urllib2.Request(url,data,headers)  #构造request请求
try:
	response = opener.open(request)
	result = response.read().decode('utf-8')
	print result
except urllib2.HTTPError, e:
	print e.code

演示结果

任重而道远！

转载请注明连接（http://www.cnblogs.com/Oran9e/p/8847313.html）。