基于Netty的四层和七层代理性能方面的一些压力测试

时间 2019-11-17

标签基于 netty 四层代理性能方面一些压力测试栏目 Netty 繁體版

原文原文链接

本文咱们主要是想测试和研究几点：nginx

基于Netty写的最简单的转发HTTP请求的程序，四层和七层性能的差别
三种代理线程模型性能的差别，下文会详细解释三种线程模型
池和非池化ByteBuffer性能的差别

本文测试使用的代码在： github.com/JosephZhu19…git

在代码里咱们实现了两套代理程序： github

image_1demdig32ia6184m64sppm8vp90.png-55.9kB

测试使用的机器配置是（阿里云ECS）： spring

image_1dembkev02d2sll1ijc18fl4r48j.png-91.9kB

一共三台机器：

server 服务器安装了nginx，做为后端
client 服务器安装了wrk，做为压测客户端
proxy 服务器安装了咱们的测试代码（代理）

Nginx后端

nginx 配置的就是默认的测试页（删了点内容，减小内网带宽）：后端

image_1dembfnk81i9m19tkvli148c13h86.png-122.8kB

直接对着nginx压测下来的qps是26.6万：

image_1delvmebjcpe39n1hdni41hss13.png-55.2kB

有关四层和七层

四层的代理，咱们仅仅是使用Netty来转发ByteBuf。七层的代理，会有更多额外的开销，主要是Http请求的编码解码以及Http请求的聚合，服务端：性能优化

image_1demdm2m82vg1i6b4ng1uitjcp9d.png-136.8kB

客户端：服务器

image_1demdoius2ekjds1kbr5a1vld9q.png-63.2kB

这里咱们能够想到，四层代理由于少了Http数据的编解码过程，性能确定比七层好不少，好多少咱们能够看看测试结果。网络

有关线程模型

咱们知道做为一个代理，咱们须要开启服务端从上游来获取请求，而后再做为客户端把请求转发到下游，从下游获取到响应后，返回给上游。咱们的服务端和客户端都须要Worker线程来处理IO请求，有三种作法；app

A：客户端Bootstrap和服务端ServerBootstrap独立的线程池NioEventLoopGroup，简称IndividualGroup
B：客户端和服务端共享一套线程池，简称ReuseServerGroup
C：客户端直接复用服务端线程EventLoop，简称ReuseServerThread

以七层代理的代码为例： oop

image_1demdqavbn5i19ff1g1hrp2gbsan.png-98.4kB

接下去的测试咱们会来测试这三种线程模型，这里想固然的猜想是方案A的性能是最好的，由于独立了线程池不相互影响，咱们接下去看看结果

四层代理 + ReuseServerThread线程模型

Layer4ProxyServer Started with config: ServerConfig(type=Layer4ProxyServer, serverIp=172.26.5.213, serverPort=8888, backendIp=172.26.5.214, backendPort=80, backendThreadModel=ReuseServerThread, receiveBuffer=10240, sendBuffer=10240, allocatorType=Unpooled, maxContentLength=2000)

image_1delvsom6v03e5pngacv714901g.png-54kB

四层代理 + IndividualGroup线程模型

Layer4ProxyServer Started with config: ServerConfig(type=Layer4ProxyServer, serverIp=172.26.5.213, serverPort=8888, backendIp=172.26.5.214, backendPort=80, backendThreadModel=IndividualGroup, receiveBuffer=10240, sendBuffer=10240, allocatorType=Unpooled, maxContentLength=2000)

image_1dem04l2alqs1l4u1ripg9a1fcu1t.png-54.8kB

四层代理 + ReuseServerGroup线程模型

Layer4ProxyServer Started with config: ServerConfig(type=Layer4ProxyServer, serverIp=172.26.5.213, serverPort=8888, backendIp=172.26.5.214, backendPort=80, backendThreadModel=ReuseServerGroup, receiveBuffer=10240, sendBuffer=10240, allocatorType=Unpooled, maxContentLength=2000)

image_1dem0br3r1rr3qmj1mk519nn111v2a.png-55.2kB

看到这里其实已经有结果了，ReuseServerThread性能是最好的，其次是ReuseServerGroup，最差是IndividualGroup，和咱们猜的不一致。

四层系统监控图

从网络带宽上能够看到，先测试的ReuseServerThread跑到了最大的带宽（后面三个高峰分别表明了三次测试）：

image_1dem0chjrimkn5va5810dk1vk62n.png-52.8kB

从CPU监控上能够看到，性能最好的ReuseServerThread使用了最少的CPU资源（后面三个高峰分别表明了三次测试）：

image_1dem0ekoq1l59ju1vvn1lp575u34.png-32.5kB

七层代理 + ReuseServerThread线程模型

Layer7ProxyServer Started with config: ServerConfig(type=Layer7ProxyServer, serverIp=172.26.5.213, serverPort=8888, backendIp=172.26.5.214, backendPort=80, backendThreadModel=ReuseServerThread, receiveBuffer=10240, sendBuffer=10240, allocatorType=Unpooled, maxContentLength=2000)

image_1dem0mduhkdc11hc2ue12rd433h.png-55kB

七层代理 + IndividualGroup线程模型

Layer7ProxyServer Started with config: ServerConfig(type=Layer7ProxyServer, serverIp=172.26.5.213, serverPort=8888, backendIp=172.26.5.214, backendPort=80, backendThreadModel=IndividualGroup, receiveBuffer=10240, sendBuffer=10240, allocatorType=Unpooled, maxContentLength=2000)

image_1dem0tgtv13ev3h9sl51appi083u.png-55.2kB

七层代理 + ReuseServerGroup线程模型

Layer7ProxyServer Started with config: ServerConfig(type=Layer7ProxyServer, serverIp=172.26.5.213, serverPort=8888, backendIp=172.26.5.214, backendPort=80, backendThreadModel=ReuseServerGroup, receiveBuffer=10240, sendBuffer=10240, allocatorType=Unpooled, maxContentLength=2000)