做者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明。谢谢!html
在初步了解Python多进程以后,咱们能够继续探索multiprocessing包中更加高级的工具。这些工具可让咱们更加便利地实现多进程。python
进程池 (Process Pool)能够建立多个进程。这些进程就像是随时待命的士兵,准备执行任务(程序)。一个进程池中能够容纳多个待命的士兵。数组
“三个进程的进程池”服务器
好比下面的程序:网络
import multiprocessing as mul def f(x): return x**2 pool = mul.Pool(5) rel = pool.map(f,[1,2,3,4,5,6,7,8,9,10]) print(rel)
咱们建立了一个允许5个进程的进程池 (Process Pool) 。Pool运行的每一个进程都执行f()函数。咱们利用map()方法,将f()函数做用到表的每一个元素上。这与built-in的map()函数相似,只是这里用5个进程并行处理。若是进程运行结束后,还有须要处理的元素,那么的进程会被用于从新运行f()函数。除了map()方法外,Pool还有下面的经常使用方法。app
apply_async(func,args) 从进程池中取出一个进程执行func,args为func的参数。它将返回一个AsyncResult的对象,你能够对该对象调用get()方法以得到结果。curl
close() 进程池再也不建立新的进程async
join() wait进程池中的所有进程。必须对Pool先调用close()方法才能join。函数
练习工具
有下面一个文件download.txt。
www.sina.com.cn www.163.com www.iciba.com www.cnblogs.com www.qq.com www.douban.com
使用包含3个进程的进程池下载文件中网站的首页。(你能够使用subprocess调用wget或者curl等下载工具执行具体的下载任务)
咱们在Python多进程初步已经提到,咱们应该尽可能避免多进程共享资源。多进程共享资源必然会带来进程间相互竞争。而这种竞争又会形成race condition,咱们的结果有可能被竞争的不肯定性所影响。但若是须要,咱们依然能够经过共享内存和Manager对象这么作。
共享“资源”
共享内存
在Linux进程间通讯中,咱们已经讲述了共享内存(shared memory)的原理,这里给出用Python实现的例子:
# modified from official documentation import multiprocessing def f(n, a): n.value = 3.14 a[0] = 5 num = multiprocessing.Value('d', 0.0) arr = multiprocessing.Array('i', range(10)) p = multiprocessing.Process(target=f, args=(num, arr)) p.start() p.join() print num.value print arr[:]
这里咱们实际上只有主进程和Process对象表明的进程。咱们在主进程的内存空间中建立共享的内存,也就是Value和Array两个对象。对象Value被设置成为双精度数(d), 并初始化为0.0。而Array则相似于C中的数组,有固定的类型(i, 也就是整数)。在Process进程中,咱们修改了Value和Array对象。回到主程序,打印出结果,主程序也看到了两个对象的改变,说明资源确实在两个进程之间共享。
Manager
Manager对象相似于服务器与客户之间的通讯 (server-client),与咱们在Internet上的活动很相似。咱们用一个进程做为服务器,创建Manager来真正存放资源。其它的进程能够经过参数传递或者根据地址来访问Manager,创建链接后,操做服务器上的资源。在防火墙容许的状况下,咱们彻底能够将Manager运用于多计算机,从而模仿了一个真实的网络情境。下面的例子中,咱们对Manager的使用相似于shared memory,但能够共享更丰富的对象类型。
import multiprocessing def f(x, arr, l): x.value = 3.14 arr[0] = 5 l.append('Hello') server = multiprocessing.Manager() x = server.Value('d', 0.0) arr = server.Array('i', range(10)) l = server.list() proc = multiprocessing.Process(target=f, args=(x, arr, l)) proc.start() proc.join() print(x.value) print(arr) print(l)
Manager利用list()方法提供了表的共享方式。实际上你能够利用dict()来共享词典,Lock()来共享threading.Lock(注意,咱们共享的是threading.Lock,而不是进程的mutiprocessing.Lock。后者自己已经实现了进程共享)等。 这样Manager就容许咱们共享更多样的对象。
咱们在这里不深刻讲解Manager在远程状况下的应用。有机会的话,会在网络应用中进一步探索。
Pool
Shared memory, Manager