看过《Python爬虫开发 从入门到实战》的同窗,应该对multiprocessing
这个模块比较熟悉,在书上我使用这个模块经过几行代码实现了一个简单的多线程爬虫:python
import requests
from multiprocessing.dummy import Pool
def get(url):
print(requests.get(url).text, '\n')
url_list = [
'http://exercise.kingname.info/exercise_middleware_ip/1',
'http://exercise.kingname.info/exercise_middleware_ip/2',
'http://exercise.kingname.info/exercise_middleware_ip/3',
'http://exercise.kingname.info/exercise_middleware_ip/4'
]
pool = Pool(3)
result = pool.map(get, url_list)
复制代码
运行效果以下图所示:多线程
(没有看过个人书的人可能会质疑,multiprocessing
不是多进程模块吗?为何你说是多线程?看过书的读者不会有这个疑惑,由于我在书上解释过缘由)async
如今,你有一个函数,没有任何参数,可是仍然想让他使用多线程,因而模仿上面的代码,你这样写:函数
import requests
from multiprocessing.dummy import Pool
def test():
print('函数运行成功!')
pool = Pool(3)
result = pool.map(test, ())
复制代码
运行之后发现,什么都没有打印出来,也就是说test()
函数根本没有运行。url
若是你强行给函数添加一个没用的参数,结果又正常了:spa
import requests
from multiprocessing.dummy import Pool
def test(_):
print('函数运行成功!\n')
pool = Pool(3)
result = pool.map(test, (0, ) * 3)
复制代码
运行效果以下图所示。 线程
因此你隐隐以为,若是pool.map
的第二个参数是空的可迭代对象,那么函数就不会运行。3d
(固然,使用过Python自带的map
函数的同窗确定直接就知道这一点,不过本文依然使用它来作例子,用于说明阅读源代码的方法。)code
为了证实这一点,咱们打开Python安装目录/lib/multiprocessing/pool.py
文件,在里面找到def map(self, func, iterable, chunksize=None)
这一行,以下图所示:cdn
(本文使用Python 3.7.3做为演示,若是你的Python版本不是3.7.3,那么代码可能会有一些区别)
从代码里面能够看到,这里调用了self._map_async()
,传入参数,得到返回值之后,再调用了返回值的.get()
方法。
因此继续看self._map_async()
方法:
在这个方法里面,若是咱们传入的可迭代对象为空,那么也就是这里的参数iterable
为空。因而
chunksize = 0
len(iterable) = 0
复制代码
map
的第一个参数,函数名被传入了下面这一行代码中:
task_batches = Pool._get_tasks(func, iterable, chunksize)
复制代码
查看Pool._get_tasks
这个静态方法,能够看到:
因为这里的参数it
就是空的可迭代对象,size
为0,因此下面这一行代码返回空元组:
tuple(itertools.islice(it, size))
复制代码
这个生成器直接就会结束,最后一行yield (func, x)
根本不会执行。
再来看代码里使用MapResult
类初始化了一个result对象,而后返回这个对象。
再进入到MapResult
类里面,以下图所示:
在这段__init__
中,能够获得以下几个参数的值:
self._success = True
self._value = [] # 由于[None] * 0 结果为[]
self._event.set()
复制代码
关于self._event.set()
请看个人另外一篇公众号:
返回的result对象的.get()
方法被调用了。可是因为MapResult
自己没有.get()
方法,因而变为调用父类ApplyResult
的.get()
方法。
再进入ApplyResult
里面,查看.get()
方法:
因为前面调用了self._event.set()
,因此这里的self.ready()
结果为True
,而因为self._success
在上面为True
,因此这里直接return self._value
。也就是返回一个空的列表。
到此为止,在pool.map
的第二个参数为空的可迭代对象时,全部的流程就走完了。整个过程当中,没有涉及到任何调用func
的过程。因此原有的函数不会被执行。
最后说说为何在本文中咱们看的是multiprocessing
的Pool
类里面的map
方法,而不是multiprocessing.dummy
的Pool
类里面的map
方法。
这是由于,若是咱们打开Python安装路径/Lib/multiprocessing/dummy/__init__.py
,咱们就能够看到,它的Pool
实际上返回的是一个ThreadPool
对象。而这个对象的代码,实际上也在Python安装路径/Lib/multiprocessing/pool.py
文件中,而且继承自Pool
类。因此他们的map
方法的代码是彻底同样的。