后线程时代的应用程序架构

时间 2019-11-21

原文原文链接

“后线程时代”，这跟好几个名词有关系， C# async await 关键字， Socket Async， ThreadPool，单体（Monosome）， “异步回调流” 。html

“异步回调流” 是 “异步回调流派” 的意思， node.js， libuv， Java Netty ，这些是典型的异步回调流。node

async await 是单体（Monosome），git

我在以前的文章《我反对使用 async await》 http://www.javashuo.com/article/p-kfsmekfd-cv.html 中提到， “async await 正带领 C# 向 Javascript 进化” 。github

至于 Socket Async ，和 async await 有关系，也跟异步回调流有关系。编程

咱们来看看一位网友从一篇文章上节取下来的 2 段文字：api

因此，从理论上看，过多的线程切换对性能的消耗是挺大的，若是能省去这部分开销， “节省” 下来的性能是可观的，也许能让服务器的吞吐量（并发量）提升 1 个数量级。缓存

因此， Visual Studio 本身也在使用 async await，从 Visual Studio 有时候报错的错误信息来看，错误信息中含有 “MoveNext_xx ……” 这样的文字，这就是 async await 。服务器

线程池（ThreadPool）自己就能将线程数量控制在一个有限的范围内，闭包

而将线程数量控制在一个有限的范围内是减小线程切换的基础。架构

我猜想 async await 的底层是基于 ThreadPool 的，是以 ThreadPool 做基础的。

若是是这样，那么 async await 和异步回调流是等价的。

什么是异步回调流？

咱们能够把程序分为 3 个部分：

1 顺序执行

2 等待 IO

3 定时轮询

1 把顺序执行的多任务放到 ThreadPool 的工做队列里排队，让 ThreadPool 调度执行，

2 对于 IO 调用，采用异步调用的方式，传入回调委托，当 IO 完成时，当 IO 完成时，回调委托，

3 对于定时轮询，采用 ThreadPool 提供的方式，如 Timer，

这样，作到以上 3 点，就是纯粹的异步回调流。

理论上，异步回调流能够将线程数量控制在有限的范围内，或者，只须要使用很小数量的线程。

这样，就像上面说的，能够节省“可观”的性能，可能能让服务器的吞吐量提升 1 个数量级。

我写了一个对 Socket 使用各类线程模型的测试项目： https://github.com/kelin-xycs/SocketThreadTest

从实验中，咱们看到，在并发量大时，好比 800 个 Socket 链接以上时， ThreadPool 的性能优于 NewThread 的方式， NewThread 是指为每一个链接建立一个线程。

可是， Async 和 Begin 的方式效率低于同步方法（Socket.Receive(), Socket.Send()）的方式。

甚至， Begin 方式中把 BeginSend() 改为了 Send() 后，效率还提升了一些。固然 Receive 仍然是使用 BeginReceive() 。

Async 方式中 Accept, Receive, Send 所有使用 Async 方法，即 AcceptAsync(), ReceiveAsync(), SendAsync() 方法。

因此，若是 Server 端 Socket 的操做所有使用异步的方式，是否会比同步的 Receive() Send() 方式的性能更高，这个没有看到有说服力的实验。

So ……

So …… ？

So ？

我写了一个对 async await 性能测试的项目： https://github.com/kelin-xycs/AsyncAwaitTest

解决方案里包括 4 个项目，这 4 个项目都是经过 ThreadPool 来运行读取文件的任务：

1 ThreadPoolRead，使用 File.Read() 方法

2 ThreadPoolReadAsync，使用 await File.ReadAsync()

3 ThreadPoolReadWait，使用 Task t = File.ReadAsync(); t.Wait();

4 ThreadPoolBeginRead，使用 File.BeginRead() 方法

5 ThreadPoolContinueWith，使用 Task t = File.ReadAsync(); t.ContinueWith();

6 ThreadPoolGetAwaiter，使用 Task t = File.ReadAsync(); t.GetAwaiter().OnCompleted();

任务是从文件中读取 2 KB 的数据，默认开启 10 万个任务，能够本身修改任务数量。

测试结果是：

10 万个任务，完成用时，

Read() ： 0.43 秒，屡次测试表现稳定，基本上稳定在 0.43 秒左右。 CPU 占用率高峰期 15% 左右，可能略小。

ReadAsync() ：最快 0.6 秒，屡次测试的表现差距很大，受电脑上其它进程的影响很大，在几秒到 20 几秒之间不等。 CPU 占用率高峰期 15% 左右。

ReadWait ：定在那里，没有结果，可能 ThreadPool 里不能 t.Wait() 。定着时候 CPU 占用率 0% 。

BeginRead ：最快 1.1 秒，屡次测试的表现差距很大，受电脑上其它进程的影响很大，在几秒到 20 几秒之间不等。 CPU 占用率高峰期 15% 左右。

ContinueWith ：最快 0.83 秒，屡次测试的表现差距很大，受电脑上其它进程的影响很大，在几秒到 20 几秒之间不等。 CPU 占用率高峰期 15% 左右。

GetAwaiter ：最快 0.7 秒，屡次测试的表现差距很大，受电脑上其它进程的影响很大，在几秒到 20 几秒之间不等。 CPU 占用率高峰期 15% 左右。

总的来讲， Read 的方式效率最高，且是稳定运行的，其它的方式效率略低，且不稳定。

从我这几回的测试，包括 Socket 和 File，异步问题不少，效率低于 Socket.Receive()， Socket.Send()， File.Read() 方法，且不稳定。

目前看起来 ThreadPool + 同步方法调用是最优的方案，高效稳定。能够这么说，能够用这个架构来在 .Net 上构建服务器端应用。

（注：括号里的这段注解内容是我后来补充的，后来经过对 “无阻塞” 编程的研究，发现异步方法的意义在于无阻塞，因此对于大并发应用来说， ThreadPool + 异步方法无阻塞的方式会更适合，参考《无阻塞编程模型》 http://www.javashuo.com/article/p-qxtbtyjk-ck.html

有网友说，在测试中，同时发起多个读取文件操做，没有指定 FileStream.Position，因此每一个任务读取的内容是不肯定的。确实，存在这样的问题，但个人这个测试主要是为了观察各类线程模型在大并发包含 IO 操做下的表现，因此 Position 的问题不影响观察实验结果。对于能够并发读取的 IO 操做好比 Socket，这个实验是有类比参考意义的。又假设文件操做也是能够并发的，那么在读取文件的方法（好比 Read(), BeginRead(), ReadAsync() ）里能够传入 position 参数，这样就能够并发读取。）

而这些测试也代表了， async await 的表现并非想象中那样理想。相对于同步方法不只效率没有更高，还更低。

也就是说，咱们从理论上看到的线程切换带来的性能损耗及其推论的相关理论，和实际不彻底相符，

这暗示着，计算机可能在按另外的规律在运行。

技术上，本身能够实现状态机和 Promise 之类的，用相似 Task.Factory.FromAsync( BeginXXX …… ) 这样的方式，经过咱们本身写一个相似 FromAsync() 这样的方法，能够截获 BeginXXX 方法返回的 IAsyncResult 对象，咱们能够把 IAsyncResult 放入状态机的队列里，而后，状态机经过 ThreadPool 的 Timer 来定时（好比 10 毫秒）来遍历检查这些 IAsyncResult 的状态看异步调用是否结束，若结束则调用回调，或者按照 Promise .When() 的逻辑等待几个任务的 IAsyncResult 的状态都是完成时，再调用 Then 委托。

这样能够实现 async await 的状态机，也能够实现 Promise 。

但问题是定时和遍历，尤为是遍历，效率不见得高。

另外，将代码切割成多块，频繁的把小块任务放到 ThreadPool 的队列里排队，也会下降效率，由于操做队列须要 Lock（同步互斥），频繁的把小块任务放入队列和取出执行会发生更多的 Lock 。

同时，将代码切割成多块，变为回调的方式，也会增长一些工做量，好比闭包封送参数，或是 State 对象传递参数，以及异步回调相关的代码。

因此，从这里也说明了，我所作的多次实验，从 Socket 到 File， Begin Async 等异步方法效率老是低于同步的 Socket.Receive()， Socket.Send()， File.Read() 方法的缘故。

async await 多是微软的一支战略吧，不过看起来微软到如今对 async await 都语焉不详。

不过 async await 大概是微软要实践 “单体” 这个理论，因此，说它带领 C# 向 Javascript 进化一点不为过。

但实践代表，这个 “单体” 的性能不见得是最优，减小线程切换和完全的单线程（单体）之间有一个最大公约数。

从通讯上， IO 完成时，发信号通知线程，进入就绪队列，这个是最优的，但问题是带来了切换上下文问题。

但若是不想切换上下文，就要线程 “本身” 去看 IO 完成没，就变成轮询。 So ……

减小线程切换和完全的单线程（单体）之间有一个折中点，不是彻底偏向哪边就是最好的。

单体，就是一个线程负责全部的任务调度。

从这几天的实践能够大概看到，省掉了切换上下文，可是频繁的把任务放到 ThreadPool 的工做队列里排队，实际上又增长了性能消耗，实时响应性反而很差。

其实从个人 ThreadPoolRead 这个项目，就是用 Read 方法的这个项目， 10 万次读取文件 0.43 秒完成的这个，

能够推算出一次线程切换是多少时间。

或者说， 1 秒钟能够切换多少次线程。

由于数据量小，且是重复读取，因此，第一次以后，都是从缓冲区读取，是内存 -> 内存的拷贝，很快。

这样，业务操做越简单，越能反映出线程切换的时间，或者说， 1 秒能切换多少次线程。如今看到的数量是很可观的。

有网友提到性能测试要在 “密集计算” 下测，所谓密集计算，我想就是指包含大量业务逻辑的计算。在业务逻辑复杂的状况下，线程切换时 CPU Cache 被刷新的效应可能会更显著。

不过具体对性能的影响如何，仍是要经过实验来看实际的效果。

咱们来看看 docs.microsoft 对 Thread 的说明： https://docs.microsoft.com/zh-cn/dotnet/api/system.threading.thread.-ctor?view=netframework-4.7.2#System_Threading_Thread__ctor_System_Threading_ThreadStart_System_Int32_

默认最大的栈大小是 1 MB，最小的栈大小大概是 256 KB，大概是这么一个体量。

从某个角度来看，线程使用中的堆栈空间越小，切换线程的时间就越快。

理想的情况，线程的堆栈数据能够长期存放在 CPU 3 级 Cache，这样能够快速的切换线程。

咱们来看看内存的读写速度： https://zhidao.baidu.com/question/1797460631148535467.html

DDR 3 的读写速度是 12.8 GB/S，能够认为是 1 纳秒能够读取 10 B， 1 微秒能够读取 10 KB 。

1 微秒 10 KB， 100 微秒 1 MB，因此，彻底刷新一个线程 1MB 的栈，须要 100 微秒，即 0.1 毫秒。

所谓 “刷新”，是指将数据从内存复制到 CPU 3 级缓存。

这样的话，若是一个线程的栈是 1 MB，固然这算是大的了，切换到这个线程的时间须要 0.1 毫秒以上（由于还有其它操做），

这有点太 “重型” 了。

实际的状况不彻底是这样，咱们看看上面 docs.microsoft 对 Thread 的说明：

能够看到，有一个 “页大小 64KB”，从这里咱们能够想到，操做系统从内存复制数据到 3 级缓存时，不见得会把整个栈的数据复制过来，而应该是把当前可能用到的那一段数据复制过来。而复制数据的单位就是虚拟内存页，一个虚拟内存页是 64 KB 。

根据上面推算的 1 微秒 10 KB，从内存复制 64 KB 数据到 3 级 Cache 要 6.4 微秒。

但，若是堆栈的数据可以长期存放在 3 级 Cache，那这个 6.4 微秒的时间也不须要了。

因此，我提出一个定理：

若是 n 个线程使用的堆栈空间大小总和是 CPU 3 级 Cache 的 1/3，则这 n 个线程的线程切换是健康的，常规的。

好比，有 100 个线程，每一个线程最大堆栈空间是 64 KB，那么， 10 个线程的堆栈空间总和是 64 KB * 100 约等于 6.4 MB，

则若 CPU 的 3 级缓存大小是 6.4 MB * 3 = 19.2 MB 以上的话，这 100 个线程的线程切换就是健康的，常规的。

从这个角度来说，若是硬件技术在 CPU Cache 上可以有效进步的话，将来若干年内，摩尔定律将会继续有效。

减少线程上下文，减小线程切换的工做量，线程切换轻量化，线程轻量化，是操做系统轻量化的一个方向。

这一点我也加到了《将来须要的是轻量操做系统而不是容器》 http://www.javashuo.com/article/p-oeegsskj-gp.html 一文里。

最后，本文结论是：

1 用 ThreadPool 合理利用线程资源就能够了，没必要过分使用异步回调来达到节省性能的目的。

2 能够有针对性的改善硬件资源来减少线程切换的性能损耗。好比 CPU Cache，尤为是 3 级 Cache 。

3 仍是那几句老话 “硬件是最廉价的”， “代码是写给人看的”， “维护软件的成本比购买硬件的成本高”， “人是最昂贵的” 。

再加上一条，通过这几天的研究，发现无阻塞是有利的，能够参考《无阻塞编程模型》 http://www.javashuo.com/article/p-qxtbtyjk-ck.html 。

后线程时代 的 应用程序 架构

后线程时代的应用程序架构