万字长文 | MongoDB络传输处理源码实现及性能调优

时间 2020-06-20

原文原文链接

本文来自OPPO互联网基础技术团队，转载请注名做者。同时欢迎关注咱们的公众号：OPPO_tech，与你分享OPPO前沿互联网技术及活动。

开源mongodb代码规模数百万行，本篇文章内容主要分析mongodb网络传输模块内部实现及其性能调优方法，学习网络IO处理流程，体验不一样工做线程模型性能极致设计原理。另一个目的就是引导你们快速进行百万级别规模源码阅读，作到不一样大工程源码”触类旁通”快速阅读的目的。react

此外，mognodb网络工做线程模型设计很是好，不只很是值得数据库相关研发人员学习，中间件、分布式、高并发、服务端等相关研发人员也能够借鉴，极力推荐你们学习。linux

1. 如何阅读数百万级大工程内核源码

Mongodb内核源码由第三方库third_party和mongodb服务层源码组成，其中mongodb服务层代码在不一样模块实现中依赖不一样的third_party库，第三方库是mongodb服务层代码实现的基础(例如:网络底层IO实现依赖asio-master库, 底层存储依赖wiredtiger存储引擎库)，其中第三方库也会依赖部分其余库(例如：wiredtiger库依赖snappy算法库，asio-master依赖boost库)。c++

虽然Mongodb内核源码数百万行，工程量巨大，可是mongodb服务层代码实现层次很是清晰，代码目录结构、类命名、函数命名、文件名命名都很是一目了然，充分体现了10gen团队的专业精神。git

说明：mongodb内核除第三方库third_party外的代码，这里统称为mongodb服务层代码。github

本文以mongodb服务层transport实现为例来讲明如何快速阅读整个mongodb代码，咱们在走读代码前，建议遵循以下准则：算法

1.1 熟悉mongodb基本功能和使用方法

首先，咱们须要熟悉mongodb的基本功能，明白mongodb是作什么用的，用在什么地方，这样才能体现mongodb的真正价值。此外，咱们须要提早搭建一个mongodb集群玩一玩，这样也能够进一步促使咱们了解mongodb内部的一些经常使用基本功能。千万不要急于求成，若是连mongodb是作什么的都不知道，或者连mongodb的运维操做方法都没玩过，直接读取代码会很是不适合，没有目的的走读代码不利于分析整个代码，同时阅读代码过程会很是痛苦。mongodb

1.2 下载代码编译源码

熟悉了mongodb的基本功能，并搭建集群简单体验后，咱们就能够从github下载源码，本身编译源码生成二进制文件，编译文档存放于docs/building.md 代码目录中，源码编译步骤以下:shell

下载对应releases中对应版本的源码
进入对于目录，参考docs/building.md文件内容进行相关依赖工具安装
执行buildscripts/scons.py编译出对应二进制文件，也能够直接scons mongod mongos这样编译。
编译成功后的生产可执行文件存放于./build/opt/mongo/目录

在正在编译代码并运行的过程当中，发现如下两个问题：数据库

1)编译出的二进制文件占用空间很大，以下图所示：segmentfault

从上图能够看出，经过strip处理工具处理后，二进制文件大小已经和官方二进制包大小同样了。

2)在一些低版本操做系统运行的时候出错，找不到对应stdlib库，以下图所示：

如上图所示，当编译出的二进制文件拷贝到线上运行后，发现没法运行，提示libstdc库找不到。缘由是咱们编译代码时候依赖的stdc库版本比其余操做系统上面的stdc库版本更高，形成了不兼容。

解决办法： 编译的时候编译脚本中带上-static-libstdc++，把stdc库经过静态库的方式进行编译，而不是经过动态库方式。

1.3 了解代码日志模块使用方法，试着加打印调试

因为前期咱们对代码总体实现不熟悉，不知道各个接口的调用流程，这时候就能够经过加日志打印进行调试。Mongodb的日志模块设计的比较完善，从日志中能够很明确的看出由那个功能模块打印日志，同时日志模块有多种打印级别。

1)日志打印级别设置

启动参数中verbose设置日志打印级别，日志打印级别设置方法以下：

Mongod -f ./mongo.conf -vvvv

这里的v越多，代表日志打印级别设置的越低，也就会打印更多的日志。一个v表示只会输出LOG(1)日志，-vv表示LOG(1) LOG(2)都会写日志。

2)如何在.cpp文件中使用日志模块记录日志

若是须要在一个新的.cpp文件中使用日志模块打印日志，须要进行以下步骤操做：

添加宏定义 #define MONGO_LOG_DEFAULT_COMPONENT ::mongo::logger::LogComponent::kExecutor
使用LOG(N)或者log()来记录想要输出的日志内容，其中LOG(N)的N表明日志打印级别，log()对应的日志全记录到文件。

例如: LogComponent::kExecutor表明executor模块相关的日志，参考log_component.cpp日志模块文件实现，对应到日志文件内容以下：

1.4 学会用gdb调试mongodb代码

Gdb是linux系统环境下优秀的代码调试工具，支持设置断点、单步调试、打印变量信息、获取函数调用栈信息等功能。gdb工具能够绑定某个线程进行线程级调试，因为mongodb是多线程环境，所以在用gdb调试前，咱们须要肯定调试的线程号，mongod进程包含的线程号及其对应线程名查看方法以下:

注意： 在调试mongod工做线程处理流程的时候，不要选择adaptive动态线程池模式，由于线程可能由于流量低引发工做线程不饱和而被销毁，从而形成调试过程由于线程销毁而中断，synchronous线程模式是一个连接一个线程，只要咱们不关闭这个连接，线程就会一直存在，不会影响咱们理解mongodb服务层代码实现逻辑。 synchronous线程模式调试的时候能够经过mongo shell连接mongod服务端端口来模拟一个连接，所以调试过程相对比较可控。

在对工做线程调试的时候，发现gdb没法查找到mongod进程的符号表，没法进行各类gdb功能调试，以下图所示：

上述gdb没法attach到指定线程调试的缘由是没法加载二进制文件符号表，这是由于编译的时候没有加上-g选项引发，mongodb经过SConstruct脚原本进行scons编译，要启编译出新的二进制文件后，就能够gdb调试了，以下图所示，能够很方便的定位到某个函数以前的调用栈信息，并进行单步、打印变量信息等调试：

1.5 熟悉代码目录结构、模块细化拆分

在进行代码阅读前还有很重要的一步就是熟悉代码目录及文件命名实现，mongodb服务层代码目录结构及文件命名都有很严格的规范。下面以truansport网络传输模块为例，transport模块的具体目录文件结构：

从上面的文件分布内容，能够清晰的看出，整个目录中的源码实现文件大致能够分为以下几个部分：

message_compressor_*网络传输数据压缩子模块
service_entry_point*服务入口点子模块
service_executor*服务运行子模块，即线程模型子模块
service_state_machine*服务状态机处理子模块
Session*回话信息子模块
Ticket*数据分发子模块
transport_layer*套接字处理及传输层模式管理子模块

经过上面的拆分，整个大的transport模块实现就被拆分红了7个小模块，这7个小的子模块各自负责对应功能实现，同时各个模块相互衔接，总体实现网络传输处理过程的总体实现，下面的章节将就这些子模块进行简单功能说明。

1.6 从main入口开始大致走读代码

前面5个步骤事后，咱们已经熟悉了mongodb编译调试以及transport模块的各个子模块的相关代码文件实现及大致子模块做用。至此，咱们能够开始走读代码了，mongos和mongod的代码入口分别在mongoSMain()和mongoDbMain()，从这两个入口就能够一步一步了解mongodb服务层代码的总体实现。

注意： 走读代码前期不要深刻各类细节实现，大致了解代码实现便可，先大致弄明白代码中各个模块功能由那些子模块实现，千万不要深究细节。

1.7 总结

本章节主要给出了数百万级mongodb内核代码阅读的一些建议，整个过程能够总结为以下几点：

提早了解mongodb的做用及工做原理。
本身搭建集群提早学习下mongodb集群的经常使用运维操做，能够进一步帮助理解mongodb的功能特性，提高后期代码阅读的效率。
本身下载源码编译二进制可执行文件，同时学会使用日志模块，经过加日志打印的方式逐步开始调试。
学习使用gdb代码调试工具调试线程的运行流程，这样能够更进一步的促使快速学习代码处理流程，特别是一些复杂逻辑，能够大大提高走读代码的效率。
正式走读代码前，提早了解各个模块的代码目录结构，把一个大模块拆分红各个小模块，先大致浏览各个模块的代码实现。
前期走读代码千万不要深刻细节，捋清楚各个模块的大致功能做用后再开始一步一步的深刻细节，了解深层次的内部实现。
从main()入口逐步开始走读代码，结合log日志打印和gdb调试。
跳过总体流程中不熟悉的模块代码，只走读本次想弄明白的模块代码实现。

2. mongodb内核网络传输transport模块实现原理

从1.5章节中，咱们把transport功能模块细化拆分红了网络传输数据压缩子模块、服务入口子模块、线程模型子模块、状态机处理子模块、session会话信息子模块、数据分发子模块、套接字处理和传输管理子模块，总共七个子模块。

实际上mongodb服务层代码的底层网络IO实现依赖asio库完成，所以transport功能模块应该是7+1个子模块构成，也就是服务层代码实现由8个子模块支持。

2.1 asio网络IO库实现原理

Asio是一个优秀网络库，依赖于boost库的部分实现，支持linux、windos、unix等多平台，mongodb基于asio库来实现网络IO及定时器处理。asio库因为为了支持多平台，在代码实现中用了不少C++的模板，同时用了不少C++的新语法特性，所以总体代码可读性相比mongodb服务层代码差不少。

服务端网络IO异步处理流程大致以下：

调用socket()建立一个套接字，获取一个socket描述符。
调用bind()绑定套接字，同时经过listen()来监听客户端连接，注册该socket描述符到epoll事件集列表，等待accept对应的新链接读事件到来。
经过epoll_wait获取到accept对应的读事件信息，而后调用accept()来接受客户的链接，并获取一个新的连接描述符new_fd。
注册新的new_fd到epoll事件集列表，当该new_fd描述符上有读事件到来，因而经过epoll_wait获取该事件，开始该fd上的数据读取。
读取数据完毕后，开始内部处理，处理完后发送对应数据到客户端。若是一次write数据到内核协议栈写太多，形成协议栈写满，则添加写事件到epoll事件列表。

服务端网络IO同步方式处理流程和异步流程大同小异，少了epoll注册和epoll事件通知过程，直接同步调用accept()、recv()、send()进行IO处理。

同步IO处理方式相对比较简单，下面仅分析和mongodb服务层transport模块结合比较紧密的asio异步IO实现原理。

Mongodb服务层用到的Asio库功能中最重要的几个结构有io_context、scheduler、epoll_reactor。Asio把网络IO处理任务、状态机调度任务作为2种不一样操做，分别由两个继承自operation的类结构管理，每种类型的操做也就是一个任务task。io_context、scheduler、epoll_reactor最重要的功能就是管理和调度这些task有序而且高效的运行。

2.1.1 io_context类实现及其做用

io_context 上下文类是mongodb服务层和asio网络库交互的枢纽，是mongodb服务层和asio库进行operation任务交互的入口。该类负责mongodb相关任务的入队、出队，并与scheduler调度处理类配合实现各类任务的高效率运行。Mongodb服务层在实现的时候，accept新链接任务使用_acceptorIOContext这个IO上下文成员实现，数据分发及其相应回调处理由_workerIOContext上下文成员实现。

该类的几个核心接口功能以下表所示：

Io_context类成员/函数名	功能	备注说明
impl_type& impl_;	Mongodb对应的type类型为scheduler	经过该成员来调用scheduler调度类的接口
io_context::run()	负责accept对应异步回调处理	1.mongodb中该接口只针对accept对应IO异步处理 2.调用scheduler::run()进行accept异步读操做
io_context::stop()	中止IO调度处理	调用scheduler::stop()接口
io_context::run_one_until()	1. 从全局队列上获取一个任务执行 2. 若是全局队列为空，则调用epoll_wait()获取网络IO事件处理	调用schedule::wait_one()
io_context::post()	任务入队到全局队列	调用scheduler::post_immediate_completion()
io_context::dispatch()	1.若是调用该接口的线程已经运行过全局队列中的任务，则直接继续由本线程运行该入队的任务 2.若是不知足条件1条件，则直接入队到全局队列，等待调度执行	若是条件1知足，则直接由本线程执行若是条件1不知足，则调用scheduler::do_dispatch ()

总结：

从上表的分析能够看出，和mongodb直接相关的几个接口最终都是调用schedule类的相关接口，整个实现过程参考下一节scheduler调度实现模块。
上表中的几个接口按照功能不一样，能够分为入队型接口(poll、dispatch)和出队型接口(run_for、run、run_one_for)。
按照和io_context的关联性不一样，能够分为accept相关io(_acceptorIOContext)处理的接口(run、stop)和新连接fd对应Io(_workerIOContext)数据分发相关处理及回调处理的接口(run_for、run_one_for、poll、dispatch)。
io_context上下文的上述接口，除了dispatch在某些状况下直接运行handler外，其余接口最终都会间接调用scheduler调度类接口。

2.1.2 asio调度模块scheduler实现

上一节的io_context上下文中提到mongodb操做的io上下文最终都会调用scheduler的几个核心接口，io_context只是起衔接mongodb和asio库的连接桥梁。scheduler类主要工做在于完成任务调度，该类和mongodb相关的几个主要成员变量及接口以下表：

scheduler类主要成员/接口	功能	备注说明
mutable mutex mutex_;	互斥锁，全局队列访问保护	多线程从全局队列获取任务的时候加锁保护
op_queue<operation> op_queue_;	全局任务队列，全局任务和网络事件相关任务都添加到该队列	3.1.1中的5种类型的任务都入队到了该全局队列
bool stopped_;	线程是否可调度标识	为true后，将再也不处理epoll相关事件，参考scheduler::do_run_one
event wakeup_event_;	唤醒等待锁得线程	实际event由信号量封装
task_operation task_operation_;	特殊的operation	在链表中没进行一次epoll获取到IO任务加入全局队列后，都会紧接着添加一个特殊operation
reactor* task_;	也就是epoll_reactor	借助epoll实现网络事件异步处理
atomic_count outstanding_work_;	套接字描述符个数	accept获取到的连接数fd个数+1(定时器fd)
scheduler::run()	循环处理epoll获取到的accept事件信息	循环调用scheduler::do_run_one()接口
scheduler::do_dispatch()	任务入队	任务入队到全局队列op_queue_
scheduler::do_wait_one()	任务出队执行	若是队列为空则获取epoll事件集对应的网络IO任务放入全局op_queue_队列
scheduler::restart()	从新启用调度	实际上就是修改stopped_标识为false
scheduler::stop_all_threads()	中止调度	实际上就是修改stopped_标识为true

2.1.3 operation任务队列

从前面的分析能够看出，一个任务对应一个operation类结构，asio异步实现中schduler调度的任务分为IO处理任务(accept处理、读io处理、写io处理、网络IO处理回调处理)和全局状态机任务，总共2种任务小类。

此外，asio还有一种特殊的operation，该Operastion什么也不作，只是一个特殊标记。网络IO处理任务、状态机处理任务、特殊任务这三类任务分别对应三个类结构，分别是：reactor_op、completion_handler、task_operation_，这三个类都会继承基类operation。

1. operation基类实现

operation基类实际上就是scheduler_operation类，经过typedef scheduler_operation operation指定，是其余三个任务的父类，其主要实现接口以下：

operation类主要成员/接口	功能	备注说明
unsigned int task_result_	Epoll_wait获取到的事件位图信息记录到该结构中	在descriptor_state::do_complete中取出位图上的事件信息作底层IO读写处理
func_type func_;	须要执行的任务
scheduler_operation::complete()	执行func_()	任务的内容在func()中运行

2. completion_handler状态机任务

当mongodb经过listener线程接受到一个新连接后，会生成一个状态机调度任务，而后入队到全局队列op_queue_，worker线程从全局队列获取到该任务后调度执行，从而进入状态机调度流程，在该流程中会触发epoll相关得网络IO注册及异步IO处理。一个全局状态机任务对应一个completion_handler类，该类主要成员及接口说明以下表所示：

completion_handler类主要成员/接口	功能	备注说明
Handler handler_;	全局状态机任务函数	这个handler就至关于一个任务，其实是一个函数
completion_handler(Handler& h)	构造初始化	启用该任务，等待调度
completion_handler::do_complete()	执行handler_回调	任务的内容在handler_()中运行

completion_handler状态机任务类实现过程比较简单，就是初始化和运行两个接口。全局任务入队的时候有两种方式，一种是io_context::dispatch方式，另外一种是io_context::post。从前面章节对这两个接口的代码分析能够看出，任务直接入队到全局队列op_queue_中，而后工做线程经过scheduler::do_wait_one从队列获取该任务执行。

注意： 状态机任务入队由Listener线程(新连接到来的初始状态机任务)和工做线程(状态转换任务)共同完成，任务出队调度执行由mongodb工做线程执行，状态机具体任务内容在后面《状态机实现》章节实现。

3. 网络IO事件处理任务

网络IO事件对应的Opration任务最终由reactor_op类实现，该类主要成员及接口以下：

reactor_op类主要成员/接口	功能	备注说明
asio::error_code ec_;	全局状态机任务函数	这个handler就至关于一个任务，其实是一个函数
std::size_t bytes_transferred_;	读取或者发送的数据字节数	Epoll_wait返回后获取到对应的读写事件，而后进行数据分发操做
enum status;	底层数据读写状态	标识读写数据的状态
perform_func_type perform_func_;	底层IO操做的函数指针	perform()中运行
status perform()；	运行perform_func_函数	perform实际上就是数据读写的底层实现
reactor_op(perform_func_type perform_func, func_type complete_func)	类初始化	这里有两个func: 1. 底层数据读写实现的接口，也就是perform_func 2. 读取或者发送一个完整mongodb报文的回调接口，也就是complete_func

从reactor_op类能够看出，该类的主要两个函数成员：perform_func_和complete_func。其中perform_func_函数主要负责异步网络IO底层处理，complete_func用于获取到一个新连接、接收或者发送一个完整mongodb报文后的后续回调处理逻辑。

perform_func_具体功能包含以下三种以下：

经过epoll事件集处理底层accept获取新链接fd。
fd上的数据异步接收
fd上的数据异步发送

针对上面的三个网络IO处理功能，ASIO在实现的时候，分别经过三个不一样的类(reactive_socket_accept_op_base、reactive_socket_recv_op_base、reactive_socket_send_op_base)实现，这三个类都继承父类reactor_op。

这三个类的功能总结以下表所示：

类名	功能	说明
reactive_socket_accept_op_base	1. Accept()系统调用获取新fd 2. 获取到一个新fd后的mongodb层逻辑回调处理	Accept()系统调用由perform_func()函数处理获取到新连接后的逻辑回调由complete_func执行
reactive_socket_recv_op_base	1. 读取一个完整mongodb报文读取 2. 读取完整报文后的mongodb服务层逻辑回调处理	从一个连接上读取一个完整mongodb报文读取由perform_func()函数处理读取完整报文后的mongodb服务层逻辑回调处理由complete_func执行
reactive_socket_send_op_base	1. 发送一个完整的mongodb报文 2. 发送完一个完整mongodb报文后的mongodb服务层逻辑回调处理	Accept()系统调用由perform_func()函数处理获取到新连接后的逻辑回调由complete_func执行

总结： asio在实现的时候，把accept处理、数据读、数据写分开处理，都继承自公共基类reactor_op，该类由两个操做组成：底层IO操做和回调处理。其中，asio的底层IO操做最终由epoll_reactor类实现，回调操做最终由mongodb服务层指定，底层IO操做的回调映射表以下：

底层IO操做类型	Mongodb服务层回调	说明
Accept(reactive_socket_accept_op_base)	ServiceEntryPointImpl::startSession，回调中进入状态机任务流程	Listener线程获取到一个新连接后mongodb的回调处理
Recv(reactive_socket_recv_op_base)	ServiceStateMachine::_sourceCallback，回调中进入状态机任务流程	接收一个完整mongodb报文的回调处理
Send(reactive_socket_send_op_base)	ServiceStateMachine::_sinkCallback，回调中进入状态机任务流程	发送一个完整mongodb报文的回调处理

说明： 网络IO事件处理任务实际上在状态机任务内运行，也就是状态机任务中调用asio库进行底层IO事件运行处理。

4. 特殊任务task_operation

前面提到，ASIO库中还包含一种特殊的task_operation任务，asio经过epoll_wait获取到一批IO事件后，会添加到op_queue_全局队列，工做线程从队列取出任务有序执行。每次经过epoll_wait获取到IO事件信息后，除了添加这些读写事件对应的底层IO处理任务到全局队列外，每次还会额外生成一个特殊task_operation任务添加到队列中。

为什么引入一个特殊任务的Opration？

工做线程变量全局op_queue_队列取出任务执行，若是从队列头部取出的是特殊Op操做，就会立马触发获取epoll网络事件信息，避免底层网络IO任务长时间不被处理引发的"饥饿"状态，保证状态机任务和底层IO任务都能”平衡”运行。

asio库底层处理实际上由epoll_reactor类实现，该类主要负责epoll相关异步IO实现处理，鉴于篇幅epoll reactor相关实现将在后续《mongodb内核源码实现及调优系列》相关章节详细分析。

2.2 message_compressor网络传输数据压缩子模块

网络传输数据压缩子模块主要用于减小网络带宽占用，经过CPU来换取IO消耗，也就是以更多CPU消耗来减小网络IO压力。

鉴于篇幅，该模块的详细源码实现过程将在《mongodb内核源码实现及调优系列》相关章节分享。