相关阅读:Python 异步网络爬虫 I | Python 异步网络爬虫 IIhtml
当你在本身的 Python 程序中采用了基于事件循环的异步编程方法以后,你就会发现本身不自觉地被其紧紧吸引住,并非说这一方法多么棒,而是由于你不得不想办法保证程序中的任意环节都不能是阻塞的!python
例如当前的场景是但愿从 MongoDB 中读取每一条未处理过的数据,下载并保存其中的图片信息,而后更新数据库的内容。Python 经常使用的 MongoDB 异步驱动是 Motor:shell
结合 asyncio
使用方法以下:数据库
import motor.motor_asyncio
import asyncio
client = motor.motor_asyncio.AsyncIOMotorClient()
db = client.test_database
async def run():
async for mm in db.test_database.find({"status": 0}):
print(mm['img_src'])
# Download Image Here
# dl_img(mm['img_src'])
await db.test_database.update({"_id": mm['_id']}, {"$set": {"status":1}})
loop = asyncio.get_event_loop()
loop.run_until_complete(run())复制代码
此时若是 dl_img()
处的操做是阻塞的,那么异步处理就没有意义了。固然这里依然能够借助异步网络请求库 aiohttp
来实现图片下载:编程
async with session.get(img) as resp:
with open(img.split("/")[-1], 'wb') as fd:
while True:
chunk = await resp.content.read(1024)
if not chunk:
break
fd.write(chunk)复制代码
固然也能够不须要本身动手下载,直接调用系统命令行工具(例如 wget
)来完成下载任务。Python 经过 subprocess
标准库实现系统命令调用(取代旧的os.system(cmd)
),执行下载任务只须要:网络
import subprocess as sb
sb.run(['wget', img], shell=True)复制代码
可是这种调用方式是没法直接在asyncio
的事件循环中使用的,可是asyncio
提供了对应的 subprocess
接口:session
asyncio.create_subprocess_exec(*args, ...)
asyncio.create_subprocess_shell(cmd, ...)复制代码
这两个方法均返回一个 asyncio.subprocess.Process
实例,而它的接口设计彻底模仿了 subprocess.Popen
(上面提到 subprocess.run()
的底层实现),所以很容易将其用法移植到事件循环中:异步
async def dl_img(src):
dl = await asyncio.create_subprocess_shell('wget {} -O {}'.format(src, src.split("/")[-1])
await dl.wait()复制代码
除了上面场景中的用法,也能够直接将命令行的执行做为任务放入事件循环:async
loop = asyncio.get_event_loop()
sb = asyncio.create_subprocess_shell('exit 7', loop=loop)
proc = loop.run_until_complete(sb)
exitcode = loop.run_until_complete(proc.wait())复制代码
在 Python 异步编程的意义就在于不要让 CPU 堵在 IO 上,所以须要在每一处涉及到阻塞的操做都须要注意使用正确的异步方法,而一旦这些操做被封装成异步的 Task 以后,其后续的调度执行就无需再顾虑了。异步编程