Python之爬虫（二十六） Scrapy登陆知乎

时间 2019-11-24

原文原文链接

由于如今不少网站为了限制爬虫，设置了为只有登陆才能看更多的内容，不登陆只能看到部份内容，这也是一种反爬虫的手段，因此这个文章经过模拟登陆知乎来做为例子，演示如何经过scrapy登陆知乎html

在经过scrapy登陆知乎以前，咱们先经过requests模块登陆知乎，来熟悉这个登陆过程json

不过在这以前须要了解的知识有：

cookie和session
关于cookie和session我以前整理了一篇博客供参考：
http://www.cnblogs.com/zhaof/p/7211253.html
requests模块的会话维持功能：
这个我在 http://www.cnblogs.com/zhaof/p/6915127.html 关于requests模块中也已经作了整理
主要内容以下，详细内容可参考上面那篇关于requests模块使用的文章
会话维持
cookie的一个做用就是能够用于模拟登录，作会话维持浏览器

import requests
s = requests.Session()
s.get("http://httpbin.org/cookies/set/number/123456")
response = s.get("http://httpbin.org/cookies")
print(response.text)

这是正确的写法，而下面的写法则是错误的服务器

import requests
requests.get("http://httpbin.org/cookies/set/number/123456")
response = requests.get("http://httpbin.org/cookies")
print(response.text)

由于这种方式是两次requests请求之间是独立的，而第一次则是经过建立一个session对象，两次请求都经过这个对象访问
关于爬虫常见登陆的方法
这里我以前的文章 http://www.cnblogs.com/zhaof/p/7284312.html 也整理的经常使用的爬虫登陆方法
这点是很是重要的cookie

只有上面这些基础的内容都已经掌握，才能完成下面内容session

非框架登陆知乎

这里我测试的结果是经过爬虫登陆知乎的时候必须携带验证码，不然会提示验证码错误，下面是关于若是没有带验证码时候提示的错误，这个错误可能刚开始写登陆知乎的时候都会碰到，因此这里我把这段代码贴出来：框架

import json
import requests
from bs4 import BeautifulSoup

headers = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36",
}

#这里是很是关键的
session = requests.session()

def get_index():
    '''
    用于获取知乎首页的html内容
    :return:
    '''
    response = session.get("http://www.zhihu.com",headers=headers)
    return response.text

def get_xsrf():
    '''
    用于获取xsrf值
    :return:
    '''
    html = get_index()
    soup = BeautifulSoup(html,'lxml')
    res = soup.find("input",attrs={"name":"_xsrf"}).get("value")
    return res


def zhihu_login(account,password):
    '''
    知乎登陆
    :param account:
    :param password:
    :return:
    '''
    _xsrf = get_xsrf()
    post_url = "https://www.zhihu.com/login/phone_num"

    post_data = {
        "_xsrf":_xsrf,
        "phone_num":account,
        "password":password,
    }
    response = session.post(post_url,data=post_data,headers=headers)
    res = json.loads(response.text)
    print(res)


zhihu_login('13121210484','********')

上述代码当你的用户名和密码都正确的时候最后结果会打印以下内容：dom

我猜想是可能知乎识别了这是一个爬虫，因此让每次登录都须要验证码，其实这个时候你正常经过浏览器登录知乎并不会让你输入验证码，因此这里咱们须要获去验证码并将验证码传递到请求参数中，咱们分析登陆页面就可当登陆页须要输入验证码的时候，咱们点击验证码会生成新的验证码，抓包分析以下：scrapy

这行咱们就得到了生成验证码的地址：
https://www.zhihu.com/captcha.gif?r=1503303312357&type=login
这个时候咱们登陆的时候传递的参数中就会增长captcha参数ide

因此咱们将上面的代码进行更改，添加验证码参数

import json
import requests
from bs4 import BeautifulSoup

headers = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36",
}

#这里是很是关键的
session = requests.session()


def get_index():
    '''
    用于获取知乎首页的html内容
    :return:
    '''
    response = session.get("http://www.zhihu.com",headers=headers)
    return response.text

def get_xsrf():
    '''
    用于获取xsrf值
    :return:
    '''
    html = get_index()
    soup = BeautifulSoup(html,'lxml')
    res = soup.find("input",attrs={"name":"_xsrf"}).get("value")
    return res


def get_captcha():
    '''
    获取验证码图片
    :return:
    '''
    import time
    t = str(int(time.time()*1000))
    captcha_url = "https://www.zhihu.com/captcha.gif?r={0}&type=login".format(t)
    t = session.get(captcha_url,headers=headers)
    with open("captcha.jpg","wb") as f:
        f.write(t.content)

    try:
        from PIL import Image
        im = Image.open("captcha.jpg")
        im.show()
        im.close()
    except:
        pass

    captcha = input("输入验证码>")
    return captcha


def zhihu_login(account,password):
    '''
    知乎登陆
    :param account:
    :param password:
    :return:
    '''
    _xsrf = get_xsrf()
    post_url = "https://www.zhihu.com/login/phone_num"
    captcha = get_captcha()

    post_data = {
        "_xsrf":_xsrf,
        "phone_num":account,
        "password":password,
        'captcha':captcha,
    }
    response = session.post(post_url,data=post_data,headers=headers)
    res = json.loads(response.text)
    print(res)


zhihu_login('13121210484','******')

这样咱们再次登陆就会发现结果以下，表示登陆成功：

这里要说明的一个问题是这里的验证码并无接打码平台，因此是手工输入的。

scrapy登陆知乎

咱们上面已经经过非框架的模式即requests模块的方式成功登陆了知乎，如今就是把上面的代码功能在scrapy中实现，这里有一个很是重要的地方，上面的代码中为了会话维持，咱们经过：
session = requests.session()
那么咱们如何在scrapy中实现呢？

这里就是经过yield,完整代码以下(这里的爬虫是在scrapy项目里直接生成的一个爬虫)：

import json
import re

import scrapy
from urllib import parse

class ZhihuSpider(scrapy.Spider):
    name = "zhihu"
    allowed_domains = ["www.zhihu.com"]
    start_urls = ['https://www.zhihu.com/']
    headers = {
        'User-Agent':"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36",

    }

    def start_requests(self):
        '''
        重写start_requests，请求登陆页面
        :return:
        '''
        return [scrapy.Request('https://www.zhihu.com/#signin',headers=self.headers,callback=self.login)]


    def login(self,response):
        '''
        先经过正则获取xsrf值，而后经过scrapy.Request请求验证页面获取验证码
        :param response:
        :return:
        '''
        response_text = response.text
        match_obj = re.match('.*name="_xsrf" value="(.*?)"',response_text,re.DOTALL)
        print(match_obj.group(1))
        xsrf=''
        if match_obj:
            xsrf = match_obj.group(1)
        if xsrf:
            post_data = {
                "_xsrf":xsrf,
                "phone_num":"13121210484",
                "password":"********",
                'captcha':'',
            }
            import time
            t = str(int(time.time() * 1000))
            captcha_url = "https://www.zhihu.com/captcha.gif?r={0}&type=login".format(t)
            #这里利用meta讲post_data传递到后面的response中
            yield scrapy.Request(captcha_url,headers=self.headers,meta={"post_data":post_data} ,callback=self.login_after_captcha)

    def login_after_captcha(self,response):
        '''
        将验证码写入到文件中，而后登陆
        :param response:
        :return:
        '''
        with open("captcha.jpg",'wb') as f:
            f.write(response.body)
        try:
            from PIL import Image
            im = Image.open("captcha.jpg")
            im.show()

        except:
            pass
        #提示用户输入验证码
        captcha = input("请输入验证码>:").strip()
        #从response中的meta中获取post_data并赋值验证码信息
        post_data = response.meta.get("post_data")
        post_data["captcha"] = captcha
        post_url = "https://www.zhihu.com/login/phone_num"
        # 这里是经过scrapy.FormRequest提交form表单
        return [scrapy.FormRequest(
            url=post_url,
            formdata=post_data,
            headers=self.headers,
            callback=self.check_login,
        )]

    def check_login(self,response):
        '''
        验证服务器的返回数据判断是否成功,咱们使用scrapy会自动携带咱们登陆后的cookie
        :param response:
        :return:
        '''
        text_json = json.loads(response.text)
        print(text_json)
        for url in self.start_urls:
            yield self.make_requests_from_url(url,dont_filter=True,header=self.headers)

上述代码中：

yield scrapy.Request(captcha_url,headers=self.headers,meta={"post_data":post_data} ,callback=self.login_after_captcha)

本来scrapy中的scrapy.Request会保存访问过程当中的cookie信息其实这里面也是用也是cookiejar，这里经过yield 的方式实现了与会话的维持
咱们经过调试登陆，以下,一样也登陆成功：