【web自动化测试】requests-html 这个解析库，能让你更轻松的获取网页内容

时间 2019-12-10

标签 web自动化测试 requests html 这个解析让你轻松获取网页内容栏目 HTML 繁體版

原文原文链接

1. 开始

Python 中能够进行网页解析的库有不少，常见的有 BeautifulSoup 和 lxml 等。在网上玩爬虫的文章一般都是介绍 BeautifulSoup 这个库，我日常也是经常使用这个库，最近用 Xpath 用得比较多，使用 BeautifulSoup 就不大习惯，好久以前就知道 Reitz 大神出了一个叫 Requests-HTML 的库，一直没有兴趣看，这回可算歹着机会用一下了。css

使用 pip install requests-html安装，上手和 Reitz 的其余库同样，轻松简单：html

 from requests_html import HTMLSession
 session = HTMLSession()
 
 r = session.get('https://www.python.org/jobs/')

这个库是在 requests 库上实现的，r 获得的结果是 Response 对象下面的一个子类，多个一个 html 的属性。因此 requests 库的响应对象能够进行什么操做，这个 r 也均可以。若是须要解析网页，直接获取响应对象的 html 属性：python

 r.html

2. 原理

不得不膜拜 Reitz 大神太会组装技术了。实际上 HTMLSession 是继承自 requests.Session 这个核心类，而后将 requests.Session 类里的 requests 方法改写，返回本身的一个 HTMLResponse 对象，这个类又是继承自 requests.Response,只是多加了一个 _from_response 的方法来构造实例：git

 class HTMLSession(requests.Session):
     # 重写 request 方法，返回 HTMLResponse 构造
     def request(self, *args, **kwargs) -> HTMLResponse:
         r = super(HTMLSession, self).request(*args, **kwargs)
         return HTMLResponse._from_response(r, self)

 class HTMLResponse(requests.Response):
  # 构造器
     @classmethod
     def _from_response(cls, response, session: Union['HTMLSession', 'AsyncHTMLSession']):
         html_r = cls(session=session)
         html_r.__dict__.update(response.__dict__)
         return html_r

以后在 HTMLResponse 里定义属性方法 html，就能够经过 html 属性访问了,实现也就是组装 PyQuery 来干。核心的解析类也大可能是使用 PyQuery 和 lxml 来作解析，简化了名称，挺讨巧的。github

3. 元素定位

元素定位能够选择两种方式：web

css 选择器

css选择器api
xpathsession

 # css 获取有多少个职位
 jobs = r.html.find("h1.call-to-action")
 # xpath 获取
 jobs = r.html.xpath("//h1[@class='call-to-action']")

方法名很是简单，符合 Python 优雅的风格，这里不妨对这两种方式简单的说明：异步

4. CSS 简单规则

标签名 h1ide
id 使用 #id 表示
class 使用 .class_name 表示
谓语表示：h1[prop=value]

5. Xpath简单规则

路径 // 或者 /
标签名
谓语 [@prop=value]
轴定位 名称::元素名[谓语]

定位到元素之后势必要获取元素里面的内容和属性相关数据，获取文本：

 jobs.text
 jobs.full_text

获取元素的属性：

 attrs = jobs.attrs
 value = attrs.get("key")

还能够经过模式来匹配对应的内容：

 ## 找某些内容匹配
 r.html.search("Python {}")
 r.html.search_all()

这个功能看起来比较鸡肋，能够深刻研究优化一下，说不定能在 github 上混个提交。

6. 人性化操做

除了一些基础操做，这个库还提供了一些人性化的操做。好比一键获取网页的全部超连接，这对于整站爬虫应该是个福音，URL 管理比较方便：

 r.html.absolute_links
 r.html.links

内容页面一般都是分页的，一次抓取不了太多，这个库能够获取分页信息：

 print(r.html)
 # 比较一下
 for url in r.html:
     print(url)

结果以下：

 # print(r.html)
 <HTML url='https://www.python.org/jobs/'>
 # for
 <HTML url='https://www.python.org/jobs/'>
 <HTML url='https://www.python.org/jobs/?page=2'>
 <HTML url='https://www.python.org/jobs/?page=3'>
 <HTML url='https://www.python.org/jobs/?page=4'>
 <HTML url='https://www.python.org/jobs/?page=5'>

经过迭代器实现了智能发现分页，这个迭代器里面会用一个叫 _next 的方法，贴一段源码感觉下：

 def get_next():
  candidates = self.find('a', containing=next_symbol)
 
  for candidate in candidates:
   if candidate.attrs.get('href'):
    # Support 'next' rel (e.g. reddit).
    if 'next' in candidate.attrs.get('rel', []):
     return candidate.attrs['href']

经过查找 a 标签里面是否含有指定的文原本判断是否是有下一页，一般咱们的下一页都会经过 下一页 或者 加载更多 来引导，他就是利用这个标志来进行判断。默认的以列表形式存在全局：['next', 'more', 'older']。我我的认为这种方式很是不灵活，几乎没有扩展性。感兴趣的能够往 github 上提交代码优化。

7. 加载 js

也许是考虑到了如今 js 的一些异步加载，这个库支持 js 运行时，官方说明以下：

Reloads the response in Chromium, and replaces HTML content with an updated version, with JavaScript executed.

使用很是简单，直接调用如下方法：

 r.html.render()

第一次使用的时候会下载 Chromium，不过国内你懂的，本身想办法去下吧，就不要等它本身下载了。render 函数可使用 js 脚原本操做页面，滚动操做单独作了参数。这对于上拉加载等新式页面是很是友好的。

8. 总结

Reitz 大神设计出来的东西仍是一如既往的简单好用，本身很少作，大多用别人的东西组装，简化 api。真是够人性。不过有的地方仍是优化空间，但愿有兴趣和精力的童鞋去 github 上关注一下这个项目。