小白学 Python 爬虫(32):异步请求库 AIOHTTP 基础入门

人生苦短,我用 Pythonhtml

前文传送门:python

小白学 Python 爬虫(1):开篇git

小白学 Python 爬虫(2):前置准备(一)基本类库的安装github

小白学 Python 爬虫(3):前置准备(二)Linux基础入门数据库

小白学 Python 爬虫(4):前置准备(三)Docker基础入门json

小白学 Python 爬虫(5):前置准备(四)数据库基础浏览器

小白学 Python 爬虫(6):前置准备(五)爬虫框架的安装微信

小白学 Python 爬虫(7):HTTP 基础网络

小白学 Python 爬虫(8):网页基础session

小白学 Python 爬虫(9):爬虫基础

小白学 Python 爬虫(10):Session 和 Cookies

小白学 Python 爬虫(11):urllib 基础使用(一)

小白学 Python 爬虫(12):urllib 基础使用(二)

小白学 Python 爬虫(13):urllib 基础使用(三)

小白学 Python 爬虫(14):urllib 基础使用(四)

小白学 Python 爬虫(15):urllib 基础使用(五)

小白学 Python 爬虫(16):urllib 实战之爬取妹子图

小白学 Python 爬虫(17):Requests 基础使用

小白学 Python 爬虫(18):Requests 进阶操做

小白学 Python 爬虫(19):Xpath 基操

小白学 Python 爬虫(20):Xpath 进阶

小白学 Python 爬虫(21):解析库 Beautiful Soup(上)

小白学 Python 爬虫(22):解析库 Beautiful Soup(下)

小白学 Python 爬虫(23):解析库 pyquery 入门

小白学 Python 爬虫(24):2019 豆瓣电影排行

小白学 Python 爬虫(25):爬取股票信息

小白学 Python 爬虫(26):为啥买不起上海二手房你都买不起

小白学 Python 爬虫(27):自动化测试框架 Selenium 从入门到放弃(上)

小白学 Python 爬虫(28):自动化测试框架 Selenium 从入门到放弃(下)

小白学 Python 爬虫(29):Selenium 获取某大型电商网站商品信息

小白学 Python 爬虫(30):代理基础

小白学 Python 爬虫(31):本身构建一个简单的代理池

PS:原谅小编一件事儿,昨天公众号推送的前文传送门连接没搞对,致使全部链接都失效了,微信又对已经推送的文章有修改限制,只支持删改,不支持加连接,小编诚恳的给你们道个歉。

为何须要异步请求库

按照惯例,先放官方连接:

官方文档:https://docs.aiohttp.org/en/stable/

惋惜这个没有中文版的,浏览器自带的翻译软件凑合看吧,有看不懂的再看原文。

缘由固然很简单,快啊~~~

啊呸,不对,是效率高。

这个效率高怎么定义呢?若是是爬取的接口或者页面没有先后的逻辑关系,举个栗子:必需要先从 a 页面获取某个数据才能拼出来 b 页面访问连接,这个就叫有先后逻辑关系。

咱们不少状况下页面的爬取是没有先后逻辑关系的,使用同步请求库如: Requests 就只能等一个请求先出去,再回来才会发送下一个请求。

若是是换成异步请求库就不会有这个等待了,一个请求发出去,才不会管这个请求什么时间响应,直接下一个请求就接着发出去了,而后再是下下个请求。

固然,异步请求库也为咱们提供了回调方法,否则咱们都不知道何时请求有响应,何时会有咱们想要的数据回来。

先看个简单的例子,咱们先直观的感觉下异步请求库到底能比同步请求库快多少。

这里使用的网站是度娘(其实原本想使用 Github 的,实在是小编使用的移动的宽带网络太xxx,循环打开十次 5 分钟都跑不完),无奈转换度娘,访问 100 次,由于 10 次太少了,看不出来差距。

Requests 版示例

示例代码以下:

import requests
from datetime import datetime

start = datetime.now()

for i in range(100):
    print(requests.get('https://www.baidu.com/').text)

end = datetime.now()

print("request花费时间为:", end - start)复制代码

结果以下:

request花费时间为: 0:00:13.410708复制代码

其余的打印小编这里就不贴了,单纯的贴一下最后时间差的打印。

AioHttp 版示例

示例代码以下:

import aiohttp
import asyncio
from datetime import datetime

async def main():
    async with aiohttp.ClientSession() as client:
        html = await client.get('https://www.baidu.com/')
        print(html)

loop = asyncio.get_event_loop()

tasks = []
for i in range(100):
    task = loop.create_task(main())
    tasks.append(task)

start = datetime.now()

loop.run_until_complete(main())

end = datetime.now()

print("aiohttp花费时间为:", end - start)复制代码

结果以下:

aiohttp花费时间为: 0:00:00.249995复制代码

各位同窗,看到了没,这个访问速度天差地别啊,一个用了 13s 多,一个连 1s 都没到,这中间的差距小编已经不想算了,太大了。

不过访问速度这么快,访问有 ip 防护的网站,封的速度也挺快的,可能爬虫刚开始运行,茶杯子都没端起来就已经把 ip 封掉了。

基操

接下来咱们简单的了解一下 AIOHTTP 的一些基本操做。

发请求

示例代码:

import aiohttp
import asyncio

async def aio_1():
    async with aiohttp.ClientSession() as session:
        async with session.get('https://www.baidu.com/') as resp:
            print(resp.status)
            print(await resp.text())

loop = asyncio.get_event_loop()
loop.run_until_complete(aio_1())复制代码

结果就不贴了,这里主要是给各位同窗演示如何使用 AIOHTTP 发送请求。

这里,咱们使用一个 ClientSession 做为被调用的 session 和一个 ClientResponse 对象做为响应结果。

一下内容为来自官方文档的提示:

注意:

不要为每一个请求建立会话。每一个应用程序极可能须要一个会话来执行全部请求。

更复杂的状况可能须要在每一个站点上进行一次会话,例如,一个会话用于Github,另外一个会话用于Facebook API。不管如何,为每一个请求创建会话是一个很是糟糕的主意。

会话内部包含一个链接池。链接重用和保持活动状态(默认状况下均处于启用状态)可能会提升总体性能。

响应

先看个示例:

async def aio_2():
    async with aiohttp.ClientSession() as session:
        async with session.get('https://www.geekdigging.com/') as resp:
            print(resp.status)
            print(await resp.text())

loop = asyncio.get_event_loop()
loop.run_until_complete(aio_2())复制代码

AIOHTTP 为咱们提供了自动解码的功能,

这里的示例访问小编的博客站,其中首页有大量的中文内容,若是解码不正确中文是不能正常显示的。结果小编就不贴了,解码正确。

固然,若是咱们发现自动解码不正确的时候能够认为的设定解码类型,代码以下:

await resp.text(encoding='gb2312')复制代码

响应咱们一样能够经过二进制字节流的方式来进行访问,代码以下:

print(await resp.read())复制代码

AIOHTTP 还为咱们内置了一个 JSON 解码器,能够供咱们直接处理 JSON 格式的响应数据,示例代码以下:

print(await resp.json())复制代码

超时

在前面咱们介绍其余请求库的时候,都有遇到过超时的问题,通常而言,咱们会为请求添加一个超时时间,那么在 AIOHTTP 中,超时时间的添加以下示例代码:

async def aio_3():
    timeout = aiohttp.ClientTimeout(total=60)
    async with aiohttp.ClientSession(timeout = timeout) as session:
        async with session.get('https://www.geekdigging.com/', timeout = timeout) as resp:
            print(resp.status)

loop = asyncio.get_event_loop()
loop.run_until_complete(aio_3())复制代码

若是咱们不设置超时时间 AIOHTTP 为咱们默认设置的超时时间是 5 分钟,若是咱们设置了超时时间,则以咱们设置的为准,超时时间的设置能够在两个地方设置,小编已经在示例中都举例出来了。

咱们能够直接在建立 ClientSession 的时候直接设置超时时间,这时,整个超时时间是在当前的会话中都有效的,若是在后面的调用中如 ClientSession.get(): 中从新设置超时时间,则会覆盖咱们在建立 ClientSession 设置的超时时间。

而 ClientTimeout 则还有不少种属性能够进行设置,列表以下:

  • total:整个操做时间包括链接创建,请求发送和响应读取。
  • connect:该时间包括创建新链接或在超过池链接限制时等待池中的空闲链接的链接。
  • sock_connect:链接到对等点以进行新链接的超时,不是从池中给出的。
  • sock_read:从对等体读取新数据部分之间的时间段内容许的最大超时。

默认超时以下:

aiohttp.ClientTimeout(total=5*60, connect=None,
                      sock_connect=None, sock_read=None)复制代码

示例代码

本系列的全部代码小编都会放在代码管理仓库 Github 和 Gitee 上,方便你们取用。

示例代码-Github

示例代码-Gitee

若是个人文章对您有帮助,请扫码关注下做者的公众号:获取最新干货推送:)
相关文章
相关标签/搜索