做为进阶系列的一个分支「并发编程
」,我以为这是每一个程序员都应该会的。html
并发编程
这个系列,我准备了将近一个星期,从知识点梳理,到思考要举哪些例子才能更加让人容易吃透这些知识点。但愿呈现出来的效果然能如想象中的那样,对小白也同样的友好。python
昨天大体整理了下,这个系列我大概会讲以下内容(后期可能调整):
程序员
对于并发编程,Python的实现,总结了一下,大体有以下三种方法:web
在以后的章节里,将陆陆续续地给你们介绍到这三个知识点。数据库
在开始讲解理论知识以前,先过一下几个基本概念。虽然咱是进阶教程,但我也但愿写得更小白,更通俗易懂。编程
串行
:一我的在同一时间段只能干一件事,譬如吃完饭才能看电视;并行
:一我的在同一时间段能够干多件事,譬如能够边吃饭边看电视;bash
在Python中,多线程
和 协程
虽然是严格上来讲是串行,但却比通常的串行程序执行效率高得很。
通常的串行程序,在程序阻塞的时候,只能干等着,不能去作其余事。就好像,电视上播完正剧,进入广告时间,咱们却不能去趁广告时间是吃个饭。对于程序来讲,这样作显然是效率极低的,是不合理的。网络
固然,学完这个课程后,咱们就懂得,利用广告时间去作其余事,灵活安排时间。这也是咱们多线程
和协程
要帮咱们要完成的事情,内部合理调度任务,使得程序效率最大化。多线程
虽然 多线程
和 协程
已经至关智能了。但仍是不够高效,最高效的应该是一心多用,边看电视边吃饭边聊天。这就是咱们的 多进程
才能作的事了。并发
为了更帮助你们更加直观的理解,在网上找到两张图,来生动形象的解释了多线程和多进程的区别。(侵删)
多线程
,交替执行,另外一种意义上的串行。
多进程
,并行执行,真正意义上的并发。
文字老是苍白无力的,千言万语不如几行代码来得孔武有力。
首先,个人实验环境配置以下
操做系统 | CPU核数 | 内存(G) | 硬盘 |
---|---|---|---|
CentOS 7.2 | 24核 | 32 | 机械硬盘 |
注意
如下代码,若要理解,对小白有以下知识点要求:
- 装饰器的运用
- 多线程的基本使用
- 多进程的基本使用
固然,看不懂也不要紧,主要最后的结论,能让你们对单线程、多线程、多进程在实现效果上有个大致清晰的认识,达到这个效果,本文的使命也就完成了,等到最后,学完整个系列,不妨再回头来理解也许会有更深入的理解。
下面咱们来看看,单线程,多线程和多进程,在运行中究竟孰强孰弱。
开始对比以前,首先定义四种类型的场景
为何是这几种场景,这和多线程
多进程
的适用场景有关。结论里,我再说明。
# CPU计算密集型
def count(x=1, y=1):
# 使程序完成150万计算
c = 0
while c < 500000:
c += 1
x += x
y += y
# 磁盘读写IO密集型
def io_disk():
with open("file.txt", "w") as f:
for x in range(5000000):
f.write("python-learning\n")
# 网络IO密集型
header = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36'}
url = "https://www.tieba.com/"
def io_request():
try:
webPage = requests.get(url, headers=header)
html = webPage.text
return
except Exception as e:
return {"error": e}
# 【模拟】IO密集型
def io_simulation():
time.sleep(2)
复制代码
比拼的指标,咱们用时间来考量。时间耗费得越少,说明效率越高。
为了方便,使得代码看起来,更加简洁,我这里先定义是一个简单的 时间计时器
的装饰器。
若是你对装饰器还不是很了解,也不要紧,你只要知道它是用于 计算函数运行时间的东西就能够了。
def timer(mode):
def wrapper(func):
def deco(*args, **kw):
type = kw.setdefault('type', None)
t1=time.time()
func(*args, **kw)
t2=time.time()
cost_time = t2-t1
print("{}-{}花费时间:{}秒".format(mode, type,cost_time))
return deco
return wrapper
复制代码
第一步,先来看看单线程的
@timer("【单线程】")
def single_thread(func, type=""):
for i in range(10):
func()
# 单线程
single_thread(count, type="CPU计算密集型")
single_thread(io_disk, type="磁盘IO密集型")
single_thread(io_request,type="网络IO密集型")
single_thread(io_simulation,type="模拟IO密集型")
复制代码
看看结果
【单线程】-CPU计算密集型花费时间:83.42633867263794秒
【单线程】-磁盘IO密集型花费时间:15.641993284225464秒
【单线程】-网络IO密集型花费时间:1.1397218704223633秒
【单线程】-模拟IO密集型花费时间:20.020972728729248秒
复制代码
第二步,再来看看多线程的
@timer("【多线程】")
def multi_thread(func, type=""):
thread_list = []
for i in range(10):
t=Thread(target=func, args=())
thread_list.append(t)
t.start()
e = len(thread_list)
while True:
for th in thread_list:
if not th.is_alive():
e -= 1
if e <= 0:
break
# 多线程
multi_thread(count, type="CPU计算密集型")
multi_thread(io_disk, type="磁盘IO密集型")
multi_thread(io_request, type="网络IO密集型")
multi_thread(io_simulation, type="模拟IO密集型")
复制代码
看看结果
【多线程】-CPU计算密集型花费时间:93.82986998558044秒
【多线程】-磁盘IO密集型花费时间:13.270896911621094秒
【多线程】-网络IO密集型花费时间:0.1828296184539795秒
【多线程】-模拟IO密集型花费时间:2.0288875102996826秒
复制代码
第三步,最后来看看多进程
@timer("【多进程】")
def multi_process(func, type=""):
process_list = []
for x in range(10):
p = Process(target=func, args=())
process_list.append(p)
p.start()
e = process_list.__len__()
while True:
for pr in process_list:
if not pr.is_alive():
e -= 1
if e <= 0:
break
# 多进程
multi_process(count, type="CPU计算密集型")
multi_process(io_disk, type="磁盘IO密集型")
multi_process(io_request, type="网络IO密集型")
multi_process(io_simulation, type="模拟IO密集型")
复制代码
看看结果
【多进程】-CPU计算密集型花费时间:9.082211017608643秒
【多进程】-磁盘IO密集型花费时间:1.287339448928833秒
【多进程】-网络IO密集型花费时间:0.13074755668640137秒
【多进程】-模拟IO密集型花费时间:2.0076842308044434秒
复制代码
将结果汇总一下,制成表格。
种类 | CPU计算密集型 | 磁盘IO密集型 | 网络IO密集型 | 模拟IO密集型 |
---|---|---|---|---|
单线程 | 83.42 | 15.64 | 1.13 | 20.02 |
多线程 | 93.82 | 13.27 | 0.18 | 2.02 |
多进程 | 9.08 | 1.28 | 0.13 | 2.01 |
咱们来分析下这个表格。
首先是CPU密集型
,多线程以对比单线程,不只没有优点,显然还因为要不断的加锁释放GIL全局锁,切换线程而耗费大量时间,效率低下,而多进程,因为是多个CPU同时进行计算工做,至关于十我的作一我的的做业,显然效率是成倍增加的。
而后是IO密集型,IO密集型
能够是磁盘IO
,网络IO
,数据库IO
等,都属于同一类,计算量很小,主要是IO等待时间的浪费。经过观察,能够发现,咱们磁盘IO,网络IO的数据,多线程对比单线程也没体现出很大的优点来。这是因为咱们程序的的IO任务不够繁重,因此优点不够明显。
因此我还加了一个「模拟IO密集型
」,用sleep
来模拟IO等待时间,就是为了体现出多线程的优点,也能让你们更加直观的理解多线程的工做过程。单线程须要每一个线程都要sleep(2)
,10个线程就是20s
,而多线程,在sleep(2)
的时候,会切换到其余线程,使得10个线程同时sleep(2)
,最终10个线程也就只有2s
.
能够得出如下几点结论