Python 爬虫实战（二）：使用 requests-html

时间 2019-11-16

标签 python 爬虫实战使用 requests html 栏目 Python 繁體版

原文原文链接

Python 爬虫实战（一）：使用 requests 和 BeautifulSoup，咱们使用了 requests 作网络请求，拿到网页数据再用 BeautifulSoup 解析，就在前不久，requests 做者 kennethreitz 出了一个新库 requests-html，Pythonic HTML Parsing for Humans™，它能够用于解析 HTML 文档的。requests-html 是基于现有的框架 PyQuery、Requests、lxml 等库进行了二次封装，更加方便开发者调用。html

安装

Mac：python

pip3 install requests-html

Windows：git

pip install requests-html

实例

代码撸多了，让咱们看会妹纸，爬的网站我选的是 http://www.win4000.com/zt/xinggan.html ，打开网站，观察到这是个列表，图片是缩略图，要想保存图片到本地，固然须要高清大图，所以得进入列表详情，进一步解析，完整代码以下：github

from requests_html import HTMLSession
import requests
import time

session = HTMLSession()


# 解析图片列表
def get_girl_list():
    # 返回一个 response 对象
    response = session.get('http://www.win4000.com/zt/xinggan.html')  # 单位秒数

    content = response.html.find('div.Left_bar', first=True)

    li_list = content.find('li')

    for li in li_list:
        url = li.find('a', first=True).attrs['href']
        get_girl_detail(url)


# 解析图片详细
def get_girl_detail(url):
    # 返回一个 response 对象
    response = session.get(url)  # 单位秒数
    content = response.html.find('div.scroll-img-cont', first=True)
    li_list = content.find('li')
    for li in li_list:
        img_url = li.find('img', first=True).attrs['data-original']
        img_url = img_url[0:img_url.find('_')] + '.jpg'
        print(img_url + '.jpg')
        save_image(img_url)


# 保持大图
def save_image(img_url):
    img_response = requests.get(img_url)
    t = int(round(time.time() * 1000))  # 毫秒级时间戳
    f = open('/Users/wuxiaolong/Desktop/Girl/%d.jpg' % t, 'ab')  # 存储图片，多媒体文件须要参数b（二进制文件）
    f.write(img_response.content)  # 多媒体存储content
    f.close()


if __name__ == '__main__':
    get_girl_list()

代码就这么多，是否是感受很简单啊。bash

说明：网络

一、requests-html 与 BeautifulSoup 不一样，能够直接经过标签来 find，通常以下：
标签
标签.someClass
标签#someID
标签[target=_blank]
参数 first 是 True，表示只返回 Element 找到的第一个，更多使用：http://html.python-requests.org/ ；session

二、这里保存本地路径 /Users/wuxiaolong/Desktop/Girl/我写死了，须要读者改为本身的，若是直接是文件名，保存路径将是项目目录下。框架

遗留问题

示例所爬网站是分页的，没有作，能够定时循环来爬妹纸哦，有兴趣的读者本身玩下。网站

参考

requests-htmlurl

今天用了一下Requests-HTML库（Python爬虫）

公众号

个人公众号：吴小龙同窗，欢迎交流～