做者:刘帝伟(微博:@拾毅者)html
原文连接:点击这里python
BitTiger尊重原创版权,转载已通过受权。git
最近忽然对爬虫兴趣倍增,主要是本身想从网上爬点数据来玩玩。前阵子从某房屋出售网爬取了长沙地区的房价以及2016年的成交额,只有几千条数据,量较少,没劲o(╯□╰)o,所以将目标成功地转移到了社交网上,难度显然大了点。爬取社交网站比较鲜明的特色就是须要登陆,不然不少东西都没法获取。作了几个小Demo以后发现,人人网的登陆还比较简单,验证码的都不用就能够成功登陆;知乎虽然携带验证码,但难度算是适中;微博的登陆难度稍微大点,由于不只有验证码,还在传递参数的时候对用户名进行了base64加密。在这篇博文里,主要是以知乎为例,模拟知乎登陆,至于数据爬取部分我们就暂且不谈吧。github
模拟知乎登陆前,先看看本次案例使用的环境及其工具:json
Github源码下载:https://github.com/csuldw/WSpider.浏览器
客户端与服务端通讯过程的几个关键点:服务器
在抓包的时候,开始使用的是Chrome开发工具中的Network,结果没有抓到,后来使用Fiddler成功抓取数据。下面逐步来细化上述过程。cookie
首先看看这个登陆页面(https//www.zhihu.com),也就是咱们登陆时的url地址。app
看到这个页面,咱们也能够大概猜想下请求服务器时传递了几个字段,很明显有:用户名、密码、验证码以及“记住我”这几个值。那么实际上有哪些呢?下面来分分析下。dom
首先查看一下HTML源码,Google里可使用CTRL+U查看,而后使用CTRL+F输入input看看有哪些字段值,详情以下:
经过源码,咱们能够看到,在请求服务器的过程当中还携带了一个隐藏字段”_xsrf”。那么如今的问题是:这些参数在传递时是以什么名字传递的呢?这就须要借用其余工具抓包进行分析了。笔者是Windows系统,这里使用的是Fiddler(固然,你也可使用其余的)。
抓包过程比较繁琐,由于抓到的东西比较多,很难快速的找到须要的信息。关于fiddler,很容易使用,有过不会,能够去百度搜一下。为了防止其余信息干扰,咱们先将fiddler中的记录清除,而后输入用户名(笔者使用的是邮箱登陆)、密码等信息登陆,相应的在fiddler中会有以下结果:
备注:若是是使用手机登陆,则对应fiddler中的url是“/login/phone_num”。
为了查看详细的请求参数,咱们左键单机“/login/email”,能够看到下列信息:
请求方式为POST,请求的url为https://www.zhihu.com/login/email。而从From Data能够看出,相应的字段名称以下:
对于这五个字段,代码中email、password以及captcha都是手动输入的,remember初始化为true。剩下的_xsrf则能够根据登陆页面的源文件,取input为_xsrf的value值便可。
对于验证码,则须要经过额外的请求,该连接能够经过定点查看源码看出:
连接为https://www.zhihu.com/captcha.gif?type=login,这里省略了ts(经测试,可省略掉)。如今,可使用代码进行模拟登陆。
舒适提示:若是使用的是手机号码进行登陆,则请求的url为https://www.zhihu.com/login/phone_num,同时email字段名称将变成“phone_num”。
在编写代码实现知乎登陆的过程当中,笔者将一些功能封装成了一个简单的类WSpider,以便复用,文件名称为WSpider.py。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 |
# -*- coding: utf-8 -*- """ Created on Thu Nov 02 14:01:17 2016 @author: liudiwei """ import urllib import urllib2 import cookielib import logging class WSpider(object): def __init__(self): #init params self.url_path = None self.post_data = None self.header = None self.domain = None self.operate = None #init cookie self.cookiejar = cookielib.LWPCookieJar() self.opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(self.cookiejar)) urllib2.install_opener(self.opener) def setRequestData(self, url_path=None, post_data=None, header=None): self.url_path = url_path self.post_data = post_data self.header = header def getHtmlText(self, is_cookie=False): if self.post_data == None and self.header == None: request = urllib2.Request(self.url_path) else: request = urllib2.Request(self.url_path, urllib.urlencode(self.post_data), self.header) response = urllib2.urlopen(request) if is_cookie: self.operate = self.opener.open(request) resText = response.read() return resText """ Save captcha to local """ def saveCaptcha(self, captcha_url, outpath, save_mode='wb'): picture = self.opener.open(captcha_url).read() #用openr访问验证码地址,获取cookie local = open(outpath, save_mode) local.write(picture) local.close() def getHtml(self, url): page = urllib.urlopen(url) html = page.read() return html """ 功能:将文本内容输出至本地 @params content:文本内容 out_path: 输出路径 """ def output(self, content, out_path, save_mode="w"): fw = open(out_path, save_mode) fw.write(content) fw.close() """#EXAMPLE logger = createLogger('mylogger', 'temp/logger.log') logger.debug('logger debug message') logger.info('logger info message') logger.warning('logger warning message') logger.error('logger error message') logger.critical('logger critical message') """ def createLogger(self, logger_name, log_file): # 建立一个logger logger = logging.getLogger(logger_name) logger.setLevel(logging.INFO) # 建立一个handler,用于写入日志文件 fh = logging.FileHandler(log_file) # 再建立一个handler,用于输出到控制台 ch = logging.StreamHandler() # 定义handler的输出格式formatter formatter = logging.Formatter('%(asctime)s | %(name)s | %(levelname)s | %(message)s') fh.setFormatter(formatter) ch.setFormatter(formatter) # 给logger添加handler logger.addHandler(fh) logger.addHandler(ch) return logger |
关于模拟登陆知乎的源码,保存在zhiHuLogin.py文件,内容以下:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 |
# -*- coding: utf-8 -*- """ Created on Thu Nov 02 17:07:17 2016 @author: liudiwei """ import urllib from WSpider import WSpider from bs4 import BeautifulSoup as BS import getpass import json import WLogger as WLog """ 2016.11.03 因为验证码问题暂时没法正常登录 2016.11.04 成功登陆,期间出现下列问题 验证码错误返回:{ "r": 1, "errcode": 1991829, "data": {"captcha":"验证码错误"}, "msg": "验证码错误" } 验证码过时:{ "r": 1, "errcode": 1991829, "data": {"captcha":"验证码回话无效 :(","name":"ERR_VERIFY_CAPTCHA_SESSION_INVALID"}, "msg": "验证码回话无效 :(" } 登陆:{"r":0, "msg": "登陆成功"} """ def zhiHuLogin(): spy = WSpider() logger = spy.createLogger('mylogger', 'temp/logger.log') homepage = r"https://www.zhihu.com/" html = spy.opener.open(homepage).read() soup = BS(html, "html.parser") _xsrf = soup.find("input", {'type':'hidden'}).get("value") #根据email和手机登录获得的参数名不同,email登录传递的参数是‘email’,手机登录传递的是‘phone_num’ username = raw_input("Please input username: ") password = getpass.getpass("Please input your password: ") account_name = None if "@" in username: account_name = 'email' else: account_name = 'phone_num' #保存验证码 logger.info("save captcha to local machine.") captchaURL = r"https://www.zhihu.com/captcha.gif?type=login" #验证码url spy.saveCaptcha(captcha_url=captchaURL, outpath="temp/captcha.jpg") #temp目录需手动建立 #请求的参数列表 post_data = { '_xsrf': _xsrf, account_name: username, 'password': password, 'remember_me': 'true', 'captcha':raw_input("Please input captcha: ") } #请求的头内容 header ={ 'Accept':'*/*' , 'Content-Type':'application/x-www-form-urlencoded; charset=UTF-8', 'X-Requested-With':'XMLHttpRequest', 'Referer':'https://www.zhihu.com/', 'Accept-Language':'en-GB,en;q=0.8,zh-CN;q=0.6,zh;q=0.4', 'Accept-Encoding':'gzip, deflate, br', 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36', 'Host':'www.zhihu.com' } url = r"https://www.zhihu.com/login/" + account_name spy.setRequestData(url, post_data, header) resText = spy.getHtmlText() jsonText = json.loads(resText) if jsonText["r"] == 0: logger.info("Login success!") else: logger.error("Login Failed!") logger.error("Error info ---> " + jsonText["msg"]) text = spy.opener.open(homepage).read() #从新打开主页,查看源码可知此时已经处于登陆状态 spy.output(text, "out/home.html") #out目录需手动建立 if __name__ == '__main__': zhiHuLogin() |
关于源码的分析,能够参考代码中的注解。
在控制台中运行python zhiHuLogin.py,而后按提示输入相应的内容,最后可获得如下不一样的结果(举了三个实例):
结果一:密码错误
结果二:验证码错误
结果三:成功登陆
经过代码,能够成功的登陆到知乎,接着若是要爬取知乎里面的内容,就比较方便了。