python selenium-webdriver 登陆验证码的处理（十二）

时间 2019-12-12

标签 python selenium webdriver 登陆验证码处理十二栏目 Python 繁體版

原文原文链接

不少系统为了防止坏人，会增长各样形式的验证码，作测试最头痛的莫过于验证码的处理，验证码的处理通常分为三种方法html

1.开发给咱们设置一个万能的验证码；web

2.开发将验证码给屏蔽掉；json

3.本身识别图片的上的千奇百怪的图片，可是这样的方法识别成功率不是特别的高，并且也不是对全部的均可以识别，只是识别一些简单的验证码；api

4.能够调用其余的服务商的验证码识别的接口，我从阿里云的云市场找到一家验证码识别的接口，0.9元能够调用大概是60次（0.01元20次，我不知道本身为什么傻乎乎的花了0.9元买了60次的规格）；app

这里主要使用到了pytesseract和PIL两个模块，首先咱们搭建一下环境post

pip install Pillow
pip install pytesseract 
因为Python-tesseract是一个基于google's Tesseract-OCR的独立封装包，那么咱们须要下载Tesseract-OCR进行安装，window下安装记住须要配置环境变量

下面咱们直接看一下具体的实例测试

#-*- coding:utf-8 -*-
import time
from selenium import webdriver
from PIL import Image,ImageEnhance
import pytesseract

def get_auth_code(driver,codeEelement):
    '''获取验证码'''
    driver.save_screenshot('login/login.png')  #截取登陆页面
    imgSize = codeEelement.size   #获取验证码图片的大小
    imgLocation = imgElement.location #获取验证码元素坐标
    rangle = (int(imgLocation['x']),int(imgLocation['y']),int(imgLocation['x'] + imgSize['width']),int(imgLocation['y']+imgSize['height']))  #计算验证码总体坐标
    login = Image.open("login/login.png")  
    frame4=login.crop(rangle)   #截取验证码图片
    frame4.save('login/authcode.png')
    authcodeImg = Image.open('login/authcode.png')
    authCodeText = pytesseract.image_to_string(authcodeImg).strip()
    return authCodeText

def pandarola_login(driver,account,passwd,authCode):
    '''登陆pandarola系统'''
    driver.find_element_by_id('loginname').send_keys(account)
    driver.find_element_by_id('password').send_keys(passwd)
    driver.find_element_by_id('code').send_keys(authCode)
    driver.find_element_by_id('to-recover').click()
    time.sleep(2)
    title = driver.find_element_by_id('menuName-h').text  #获取登陆的标题
    '''验证是否登陆成功'''
    try:
        assert title == u'桌面'
        return '登陆成功'
    except AssertionError as e:
        return '登陆失败'

if __name__ == '__main__':

    driver = webdriver.Chrome()
    driver.get('http://pandarola.pandadata.cn')
    driver.maximize_window()
    imgElement = driver.find_element_by_id('codeImg')
    authCodeText = get_auth_code(driver,imgElement)
    pandarola_login(driver,'admin','1',authCodeText)
    driver.quit()

因为咱们系统属于内部系统，验证码比较简单，因此很轻松的识别了，可是有时候2和Z没法识别，只要登陆失败从新获取再次登陆便可。毕竟本身写的验证码识别，识别的成功的概率还时比较低，因此我这边从阿里云的云市场找到了一家公司，用他们的接口来识别，最起码公司的几个系统的验证码问题所有解决了，不再用求开发了。ui

ps：google

　　这里包含了接口的说明文档，大概能够本身看一下，https://market.aliyun.com/products/57126001/cmapi014396.html#sku=yuncode839600006，我这边演示下经过这个接口来识别验证码。阿里云

#-*- coding:utf-8 -*-
import base64
import requests
import json
def read_picture_base64(fileNmae):
    '''验证码图片 base64加密格式'''
    with open(fileNmae,'rb') as f:
        base64Picture = base64.b64encode(f.read())
    return base64Picture.decode()


def authcode_picture_convert_string(appCode,querys,base64Picture):  #appCode 接口的认证key,querys 验证码类型
    '''经过第三方结果获取验证码'''
    header = {
        'Content-Type':'application/x-www-form-urlencoded; charset=UTF-8',   #根据API的要求，定义相对应的Content-Type
        "Authorization":"APPCODE "+ appCode
    }
    url = 'http://jisuyzmsb.market.alicloudapi.com/captcha/recognize'  #调用地址
    bodys = {'type':querys,'pic':base64Picture}   #请求参数
    res = requests.post(url,headers=header,data=bodys)
    return res.text

if __name__ == '__main__':
    appCode = '377e5f0fe10146ef9aa88bae756a3904'
    querys = 'e4'
    base64Picture = read_picture_base64('login/20170629232535.png')
    text = authcode_picture_convert_string(appCode,querys,base64Picture)
    authCode = json.loads(text)['result']['code']  #解析返回的结果
    print(authCode)