最近学了点关于python的网络爬虫的知识,简单记录一下,这里主要用到了requests库和BeautifulSoup库html
Requests is an elegant and simple HTTP library for Python, built for human beings.python
Beautiful Soup is a Python library for pulling data out of HTML and XML files. It works with your favorite parser to provide idiomatic ways of navigating, searching, and modifying the parse tree. It commonly saves programmers hours or days of work.chrome
以上是两个库的介绍,连接是文档信息浏览器
这里我利用东北大学的图书馆的登录页面来实现咱们的爬虫功能(ps:没错,博主是东北大学的学生..因此我有帐号密码),没有帐号密码也没有关系,原理都是差很少的,之因此找这个页面,是由于这个页面没有验证码,可以简单一些,并且像学校的这种页面通常比较简单,方便操做
网络
首先我用的帐户和密码登录进了东北大学图书馆,我使用的是chrome浏览器,打开开发者模式,咱们来看看咱们提交了哪些信息。
登录进去后,按下F12打开开发者模式,在Network选项卡下面,咱们找到这个文件,他的request方法是post,应该就是咱们要找的文件了,拉到最下面看到Form Data,红色框出就是咱们登录时提交的信息了,一共五个部分,画红线的地方是帐号和密码。搞清楚了post的信息后,咱们就能够写代码来自动提交信息了。session
登录部分搞清楚了,接下就要分析要抓取的信息了,如今我要抓取个人app
要抓取这三个数据,如上图所示,我当前外借1本书,借阅过65本书,预定请求为0,如今的目的是将这些数据抓取出来,咱们按下F12来查看网页的源代码,分析咱们应该抓取哪一部分。
如上图所示,一步步找到了数据所在的标签,我发现数据都在id=history这个标签下,因此能够先找到这个标签,而后再找tr标签,而后就能找到td标签里的数据了。ide
抓取页面上的一些信息,并在控制台输出函数
def getHTMLText(url): try: kv = {'user-agent': 'Mozilla/5.0'} mydata = {'func':'login-session', 'login_source':'bor-info', 'bor_id': '***', 'bor_verification': '***','bor_library':'NEU50'} re = requests.post(url, data=mydata, headers=kv) re.raise_for_status() re.encoding = re.apparent_encoding return re.text except: print("异常") return""
代码如上,咱们来分析一下post
最后返回咱们新的页面的text。
def fillBookList(booklist, html): soup = BeautifulSoup(html,"html.parser") for tr in soup.find(id='history').descendants: if isinstance(tr, bs4.element.Tag): temp = tr.find_all('td') if len(temp)>0: booklist.append(temp[1].string.strip()) booklist.append(temp[3].string.strip()) booklist.append(temp[5].string.strip()) break
在遍历的过程当中,标签的子标签多是字符串类型,咱们要过滤掉这些,因此用了isinstance(tr, bs4.element.Tag)
isinstance 的用法:
语法:
isinstance(object, classinfo)
其中,object 是变量,classinfo 是类型(tuple,dict,int,float,list,bool等) 和 class类若参数 object 是 classinfo 类的实例,或者 object 是 classinfo 类的子类的一个实例, 返回 True。 若 object 不是一个给定类型的的对象, 则返回结果老是False。若 classinfo 不是一种数据类型或者由数据类型构成的元组,将引起一个 TypeError 异常。
在标签中寻找全部td标签,观察源代码发现,第一个td标签列表就是咱们要的,因此一旦找到咱们要的信息之后,就中止查找,并就信息存在booklist里面
def printUnivList(booklist): print("{:^10}\t{:^6}\t{:^10}".format("外借","借阅历史列表","预定请求")) print("{:^10}\t{:^6}\t{:^10}".format(booklist[0],booklist[1],booklist[2])
这部分很简单就不说了
贴上代码
def main(): html = getHTMLText("http://202.118.8.7:8991/F/-?func=bor-info") booklist = [] fillBookList(booklist, html) printUnivList(booklist)
成功的在控制台打印出了咱们要的信息!
import requests from bs4 import BeautifulSoup import bs4 def getHTMLText(url): try: kv = {'user-agent': 'Mozilla/5.0'} mydata = {'func':'login-session', 'login_source':'bor-info', 'bor_id': '***', 'bor_verification': '***','bor_library':'NEU50'} re = requests.post(url, data=mydata, headers=kv) re.raise_for_status() re.encoding = re.apparent_encoding return re.text except: print("异常") return"" def fillBookList(booklist, html): soup = BeautifulSoup(html,"html.parser") for tr in soup.find(id='history').descendants: if isinstance(tr, bs4.element.Tag): temp = tr.find_all('td') if len(temp)>0: booklist.append(temp[1].string.strip()) booklist.append(temp[3].string.strip()) booklist.append(temp[5].string.strip()) break def printUnivList(booklist): print("{:^10}\t{:^6}\t{:^10}".format("外借","借阅历史列表","预定请求")) print("{:^10}\t{:^6}\t{:^10}".format(booklist[0],booklist[1],booklist[2])) def main(): html = getHTMLText("http://202.118.8.7:8991/F/-?func=bor-info") booklist = [] fillBookList(booklist, html) printUnivList(booklist) main()