因为在豆瓣发了个租房帖子,发现很快就被其余的帖子淹没,可是手动顶帖实在太累,😭,因此想经过自动顶帖的方式来解放双手!php
经过Chrome network 分析html
https://www.douban.com/group/topic/129122199/add_comment
Python 模拟请求:python
# 豆瓣具体帖子
url = "https://www.douban.com/group/topic/129122199/"
# 豆瓣具体帖子回复的接口,格式是帖子连接+/add_comment
comment_url = url + "/add_comment"
cookie = 'cookie'
referer = url
agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'
headers = {
"Host": "www.douban.com",
"Referer": referer,
'User-Agent': agent,
"Cookie": cookie
}
params = {
"rv_comment": '🆙',
"ck": re.findall("ck=(.*?);", headers["Cookie"])[-1],
'start': '0',
'submit_btn': '发送'
}
response = requests.post(comment_url, headers=headers, allow_redirects=False,
data=params, verify=False)
复制代码
直接运行便可。json
可是多运行几回就会发现,返回的状态码是200,并且没有顶帖成功。其实是触发了豆瓣的防爬虫。数组
并且在咱们顶帖的时候发送请求的时候还带有 captcha-solution 和 captcha-id 字段。bash
目前发现,每次评论就算相隔1分钟,只要满3次,就必定会弹出这个验证码进行验证。微信
遇到验证码咱们就来破解验证码。cookie
识别图形验证码须要安装tesserocr这个库,下面介绍下tesserocr。dom
tesserocr是Python的一个OCR识别库,但实际上是对tesseract作了一层Python Api的封装,核心仍是tesseract,因此在安装tesserocr以前,须要先安装tesseract。Tesseract
(/‘tesərækt/) 这个词的意思是”超立方体”,指的是几何学里的四维标准方体,又称”正八胞体”,是一款被普遍使用的开源 OCR
工具。异步
在Mac下,使用 brew 安装
brew install tesseract --all-languages
复制代码
接下来再安装tesserocr便可:
brew install imagemagick
pip install tesserocr pillow
复制代码
Python 代码以下:
import tesserocr
from PIL import Image
if __name__ == '__main__':
# 新建Image对象
image = Image.open("/Users/liwenhao/Desktop/douban-captcha-example1.jpeg")
# 调用tesserocr的image_to_text()方法,传入image对象完成识别
result = tesserocr.image_to_text(image)
print(result)
复制代码
验证的图片以下:
结果没法识别。
换一张简单的图片试试:
结果以下:
5594
复制代码
看来 Tesseract 只能识别一些简单的验证码,不适合豆瓣验证码识别。
试试识别验证码平台。
官方接入文档: 文字识别-Python SDK接入文档
注意: 支持2.7.+及3.+
先开通个百度的帐号;
开通文字识别服务,打开后点击当即使用:cloud.baidu.com/product/ocr…
点击步骤2,应该有个信息确认的,确认后,会进入到用户我的首页,向下滑动,直接点击文字识别:
点击建立应用,输入一堆内容后,点击确认便可,而后点击个人应用,这里面的API Key 跟Secret Key须要使用到:
点击右上角,用户中心,用户ID也须要用到:
须要的信息准备好了,pip 安装一波
pip install baidu-aip
复制代码
import json
from aip import AipOcr
if __name__ == '__main__':
APP_ID = ' '
API_KEY = ' '
SECRET_KEY = ' '
client = AipOcr(APP_ID, API_KEY, SECRET_KEY)
# 读取图片
def get_file_content(file_path):
with open(file_path, 'rb') as fp:
return fp.read()
image = get_file_content('/Users/liwenhao/Desktop/douban-captcha-example2.jpg')
""" 调用通用文字识别(高精度), 图片参数为本地图片 """
result = json.dumps(client.basicAccurate(image))
print(result)
复制代码
验证的图片以下:
结果走一波:
{"log_id": 3968431492157876638, "words_result_num": 1, "words_result": [{"words": " minute:"}]}
复制代码
从结果能够看出识别出了这个验证码。
words_result_num
是识别结果数words_result
是定位和识别结果数组words
是识别结果字符串再来试试
结果以下:
{"log_id": 5251449865676063710, "words_result_num": 0, "words_result": []}
复制代码
没有识别出来,能够看到对于复杂一些的验证码仍是会出现没法识别的状况,可是胜在免费。
对于没法识别的状况就须要打码平台了,业界比较出名的是 超级鹰 。
超级鹰是按量级收费,量大便宜,标准价格:1元=1000题分,不一样验证码类型,须要的题分不同,详情能够到这里查询 www.chaojiying.com/price.html
python 代码以下:
from hashlib import md5
import requests
import json
# 经过超级鹰识别验证码
def recognition_captcha(filename, code_type):
im = open(filename, 'rb').read()
params = {
'user': '帐号',
'pass2': md5('密码'.encode('utf8')).hexdigest(),
'softid': 'softid',
'codetype': code_type
}
headers = {
'Connection': 'Keep-Alive',
'User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)',
}
files = {'userfile': ('ccc.jpg', im)}
resp = requests.post('http://upload.chaojiying.net/Upload/Processing.php', data=params, files=files,
headers=headers).json()
return resp
# 调用代码
if __name__ == '__main__':
print(json.dumps(recognition_captcha('/Users/liwenhao/Desktop/douban-captcha-example2.jpg', 1006)))
复制代码
上传的验证码就是上面百度 OCR 不曾识别的验证码,以下:
{"err_str": "OK", "err_no": 0, "md5": "0475b05654c376deb409bfef7eee75cd", "pic_id": "8054415552001300054", "pic_str": "yacvmd"}
复制代码
发现 验证码 yacvmd
已出来。可是时间花了5s左右。后来测试发现对于豆瓣比较建的验证码花费的时间在1s内,所以从时间和准确性上面,最后仍是采用了超级鹰打码平台。
不管采用什么方式,都有可能出现失败的状况,我总不能采起 轮询 的方式,隔几个小时就去看看到底前面几回是否🆙成功,所以须要一个 异步通知 ,最开始想用 邮件,后来发现了 Server酱 这个神器,能够帮助咱们发送微信通知,并且特别简单。
具体能够查看 Server酱。
采用 python2
import os
import requests
import urllib3
import re
from hashlib import md5
import random
from lxml import html
import logging
logging.basicConfig(level=logging.INFO, format='%(asctime)s.%(msecs)03d %(levelname)s: %(message)s',
datefmt='%Y-%m-%d %H:%M:%S')
urllib3.disable_warnings()
# 下载验证码图片
def download_captcha(captcha_url, agent):
# findall返回的是一个列表
captcha_name = re.findall("id=(.*?):", captcha_url)
filename = "douban_%s.jpg" % (str(captcha_name[0]))
logging.info("文件名为: " + filename)
with open(filename, 'wb') as f:
# 以二进制写入的模式在本地构建新文件
header = {
'User-Agent': agent,
'Referer': captcha_url
}
f.write(requests.get(captcha_url, headers=header).content)
logging.info("%s 下载完成" % filename)
return filename
# 经过超级鹰识别验证码
def recognition_captcha(filename, code_type):
im = open(filename, 'rb').read()
params = {
'user': '用户',
'pass2': md5('密码'.encode('utf8')).hexdigest(),
'softid': 'softid',
'codetype': code_type
}
headers = {
'Connection': 'Keep-Alive',
'User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)',
}
files = {'userfile': ('ccc.jpg', im)}
resp = requests.post('http://upload.chaojiying.net/Upload/Processing.php', data=params, files=files,
headers=headers).json()
# 错误处理
if resp.get('err_no', 0) == 0:
return resp.get('pic_str')
def result_verification(response):
if response.status_code == 302:
logging.info("豆瓣ding成功")
else:
logging.info(response.status_code)
logging.info(response)
url = "https://sc.ftqq.com/你的SCKEY.send?text=douban失败" + \
str(random.randint(0, 1000))
requests.post(url)
logging.info("豆瓣ding失败,发送失败信息到微信")
# 豆瓣顶帖
def douban_ding():
# 豆瓣具体帖子
url = "https://www.douban.com/group/topic/129122199/"
# 豆瓣具体帖子回复的接口,格式是帖子连接+/add_comment
comment_url = url + "/add_comment"
cookie = 'cookie'
referer = url
agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'
headers = {
"Host": "www.douban.com",
"Referer": referer,
'User-Agent': agent,
"Cookie": cookie
}
params = {
"rv_comment": '🆙',
"ck": re.findall("ck=(.*?);", headers["Cookie"])[-1],
'start': '0',
'submit_btn': '发送'
}
response = requests.get(url, headers=headers, verify=False).content.decode('utf-8')
selector = html.fromstring(response)
captcha_image = selector.xpath("//img[@id=\"captcha_image\"]/@src")
if captcha_image:
logging.info("发现验证码,下载验证码")
captcha_id = selector.xpath("//input[@name=\"captcha-id\"]/@value")
filename = download_captcha(captcha_image[0], agent)
captcha_solution = recognition_captcha(filename, 1006)
os.remove(filename)
params['captcha-solution'] = captcha_solution
params['captcha-id'] = captcha_id
else:
logging.info("没有验证码")
response = requests.post(comment_url, headers=headers, allow_redirects=False,
data=params, verify=False)
result_verification(response)
if __name__ == '__main__':
douban_ding()
复制代码
运行结果:
2018-12-30 16:09:35.589 INFO: 没有验证码
2018-12-30 16:09:36.436 INFO: 豆瓣ding成功
复制代码
2018-12-30 16:13:02.135 INFO: 发现验证码,下载验证码
2018-12-30 16:13:02.135 INFO: 文件名为: douban_OJGsVa0hST4O2WhFA0VpMnR9.jpg
2018-12-30 16:13:02.554 INFO: douban_OJGsVa0hST4O2WhFA0VpMnR9.jpg 下载完成
2018-12-30 16:13:09.687 INFO: 豆瓣ding成功
复制代码
效果图:
注: