登陆网站爬虫（保持Cookie不变）

时间 2019-11-19

原文原文链接

平时常常须要到学校的信息门户去查看课表及其余信息，因而想作一个爬虫，能够自动替我登陆而且获得这些信息，因而今天动手写了一个爬虫：html

首先登陆学校的信息门户：http://cas.whu.edu.cn/authserver/login?service=http://my.whu.edu.cnpython

而后这里我随便输入帐号名和密码，来看看登陆时浏览器都作了些什么。这里我使用的是FireFix浏览器以及HttpFox插件，若是用Chrome的话，谷歌下也有很棒的插件，IE的话推荐HTTPWatch。web

从HttpFox中咱们能够分析得出大概流程，首先就是浏览器根据Name获取到html中表单中的input内容，而后经过post提交到一个服务器地址，而后服务器判断用户名密码是否正确，进而作出相应的响应。接下来咱们就须要知道浏览器是把什么数据提交到了哪里，咱们点击httpfox中的第一个步骤：浏览器

能够看到浏览器把数据仍是提交到了当前页面，而且携带有Cookie，咱们再看看postdata里都有什么服务器

能够看到postdata中不只有用户名密码，还有一些其余数据，到这里咱们能够用Python写一个爬虫，只提交用户名密码，而后你会发现服务器仍是给你返回一个登陆页面，这时候咱们就须要考虑lt dllt这些postdata了，但是这些是什么呢？我查阅了一些资料，lt能够理解成每一个须要登陆的用户都有一个流水号。只有有了webflow发放的有效的流水号，用户才能够说明是已经进入了webflow流程。不然，没有流水号的状况下，webflow会认为用户尚未进入webflow流程，从而会从新进入一次webflow流程，从而会从新出现登陆界面。cookie

那么如何得到这个lt数据呢。咱们回到http://cas.whu.edu.cn/authserver/login?service=http://my.whu.edu.cn，按F12，session

咱们很容易能找到用户名和密码的两个input，咱们在查找input标签：app

发如今form最下面有这几个隐藏域，如今咱们已经拿到了流水号，但是还有一个问题：就是我首先发送一个get，而后我拿到这个隐藏域全部value，而后我须要在发送一次post方式，这时候，咱们先前得到的lt值已经再也不是如今的lt值了，因此这个时候咱们就要用requests的session方法来保持cookie不变了，session方法可让同一个实例发出的全部请求保持相同的cookie。函数

接下来任务就好作了：post

#encode=utf8
'''
Created on 2016年10月15日

@author: WangHui
@note: View things from WuHanUniversity
'''
import requests
from http.cookiejar import CookieJar
from bs4 import BeautifulSoup

class WHUHelper(object):
    __loginuri='http://cas.whu.edu.cn/authserver/login?service=http://my.whu.edu.cn'
    __logindo='http://yjs.whu.edu.cn'
    #初始化构造函数，帐户和密码
    def __init__(self,name='',password=''):
        #帐户名
        if not isinstance(name,str):
            raise TypeError('请输入字符串')
        else:
            self.name=name
        if isinstance(password,int):
            self.password=str(password)
        elif isinstance(password, str):
            self.password=password
        else:
            raise TypeError('请输入字符串')
    #返回一个登录成功后的Response
    def __getResponseAfterLogin(self):
        #模拟一个浏览器头
        header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:47.0) Gecko/20100101 Firefox/47.0'}
        #保持Cookie不变，而后再次访问这个页面
        s=requests.Session()
        #CookieJar能够帮咱们自动处理Cookie
        s.cookies=CookieJar()
        #获得一个Response对象，可是此时尚未登陆
        r=s.get(self.__loginuri,headers=header)
        #获得postdata应该有的lt
        #这里使用BeautifulSoup对象来解析XML
        dic={}
        lt=BeautifulSoup(r.text,'html.parser')
        for line in lt.form.findAll('input'):
            if(line.attrs['name']!=None):
                dic[line.attrs['name']]=line.attrs['value']
        params={
            'username':self.name,
            'password':self.password,
            'dllt':'userNamePasswordLogin',
            'lt':dic['lt'],
            'execution':dic['execution'],
            '_eventId':dic['_eventId'],
            'rmShown':dic['rmShown']}
        #使用构建好的PostData从新登陆,以更新Cookie
        r=s.post(self.__loginuri, data=params,headers=header)
        #返回登陆后的response
        return s
    #获得研究生信息门户指定分类下的HTML
    def __getHtmlOfPerson(self):
        s=self.__getResponseAfterLogin()
        personUri='http://yjs.whu.edu.cn/ssfw/index.do#'
        r=s.get(personUri)
        return r.text
    #获得研究生我的信息
    def getPersonInfor(self):
        s=self.__getResponseAfterLogin()
        bs=BeautifulSoup(self.__getHtmlOfPerson(),'html.parser')
        dic={}
        #获得基本信息get方式的访问URL网站
        jbxxUri=self.__logindo+bs.find('a',{'text':'基本信息'}).attrs['url']
        r=s.get(jbxxUri)
        bs=BeautifulSoup(r.text,'html.parser')
        dic['学号']=bs.find('input',{'name':'jbxx.xh'}).attrs['value']
        dic['姓名']=bs.find('input',{'name':'jbxx.xm'}).attrs['value']
        return dic
    #获得我的课表
    def getClassInfo(self):
        #初始化课表
        classInfo=[]
        classTitle=['星期一','星期二','星期三','星期四','星期五','星期六','星期日']
        for i in range(13):
            singleclass=[]
            for j in range(7):
                singleclass.append('')
            classInfo.append(singleclass)
        #首先获得登录后的request
        s=self.__getResponseAfterLogin()
        bs=BeautifulSoup(self.__getHtmlOfPerson(),'html.parser')
        jbxxkb=self.__logindo+bs.find('a',{'text':'个人课表'}).attrs['url']
        r=s.get(jbxxkb)
        bs=BeautifulSoup(r.text,'html.parser')
        #获得天天十三节课
        trs=bs.find('table',{'class':'table_con'}).findAll('tr',{'class':'t_con'})
        for i in range(len(trs)):
            tds=trs[i].findAll('td')
            #表示星期几
            j=0
            for td in tds: 
                #首先去掉table的行标题和列标题
                #根据规律可知，凡是带有标题的都含有b标签
                if td.find('b')!=None:
                    continue
                #beautifulsoup会把&nbsp;解析为\a0，因此这里须要先转码，而后在编码
                classInfo[i][j]=str(td.get_text()).encode('gbk','ignore').decode('gbk')
                j=j+1
        classInfo.insert(0, classTitle)        
        return classInfo

固然这个类并不完善，我只是想要看到个人课表，若是须要查看其余信息，可使那个requests再次发送请求，而后用BeautifulSoup4解析便可。

这里咱们能够测试一下：

参考文章：

https://my.oschina.net/u/1177799/blog/491645

http://beautifulsoup.readthedocs.io/zh_CN/latest/

http://m.blog.csdn.net/article/details?id=51628649

http://docs.python-requests.org/en/latest/user/advanced/#session-objects