以太坊做为一个去中心化的系统,其底层个体相互间的通讯显然很是重要,全部数据的同步,各个个体状态的更新,都依赖于整个网络中每一个个体相互间的通讯机制。以太坊的网络通讯基于peer-to-peer(p2p)通讯协议,又根据自身传输数据类型(区块,交易,哈希值等),网络节点业务相关性等需求,在各方面作了特别设计。node
因为以太坊中p2p通讯相关代码量较大,打算分为上下两篇文章来加以详解:上篇主要介绍管理p2p通讯的核心类ProtocolManager内部主要流程,以及通讯相关协议族的设计;下篇主要介绍ProtocolManager的两个成员Fetcher和Downloader,这里是上篇。golang
在开始介绍以太坊的p2p通讯机制以前,不妨先来看看通常意义上的p2p网络通讯的一些特征,如下部份内容摘自peer-to-peer_wikispring
peer-to-peer(p2p)首先是一种网络拓扑类型,与之对比最显著的就是client/server(C/S)架构。从TCP/IP协议族分层的角度来讲,p2p网络中实际的数据交换,依然是网络层用IP协议,传输层用TCP协议;而p2p协议--若是可称之为协议的话,应算做应用层再往上,相似于逻辑拓扑层,毕竟著名的应用层协议之一FTP,就属于很是典型的一种C/S架构类型。缓存
上图是C/S架构和p2p架构的一个简单示意图,原图来自wiki。左图中C/S架构被描绘成星型拓扑,这固然仅仅是特例,你们可能在工做中遇到各类各样拓扑形状的C/S架构,而其核心特征是不变的:C/S 网络中的个体地位和功能是不平等的,client个体主要消耗资源,发起请求,server个体主要提供资源并处理请求,这使得C/S架构自然是中心化的。网络
相比之下,p2p架构中最重要的特色在于:其网络中的个体在地位和功能上是平等的,虽然每一个个体可能处理不一样的请求,实际提供的资源在具体量化后可能有差别,但它们都能同时既消耗资源又提供资源。若是把整个所处网络中的资源--此处的资源包括但不限于运算能力、存储空间、网络带宽等,视为一个总量,那么p2p网络中的资源分布,是分散于各个个体中的(也许不必定均匀分布)。因此,p2p网络架构自然是去中心化的、分布式的。架构
注意上图右侧p2p网络中,并不是每一个个体与网络中其余同类均有通讯。这其实也是p2p网络的一个很重要的特色:一个个体只须要与相邻的一部分同类有通讯便可,每一个个体可与多少相邻个体、哪些个体有通讯,是能够加以设计的,分布式
根据p2p网络中节点相互之间如何联系,能够将p2p网络简单区分为无结构化的(unstructured),和结构化的(structured)两大类。函数
这种p2p网络即最普通的,不对结构做特别设计的实现方案。优势是结构简单易于组建,网络局部区域内个体可任意分布,反正此时网络结构对此也没有限制;特别是在应对大量新个体加入网络和旧个体离开网络(“churn”)时它的表现很是稳定。缺点在于在该网络中查找数据的效率过低,由于没有预知信息,因此每每须要将查询请求发遍整个网络(至少大多数个体),这会占用很大一部分网络资源,并大大拖慢网络中其余业务运行。oop
这种p2p网络中的个体分布通过精心设计,主要目的是为了提升查询数据的效率,下降查询数据带来的资源消耗。提升查询效率的基本手段是对数据创建索引,结构化p2p网络最广泛的实现方案中使用了分布式哈希表(Distributed Hash Table,DHT),它会对每项数据(value)分配一个key以组成(key,value)键值对,同时网络中每一个个体的分布--这里的分布主要指相互通讯关系-根据key键进行关联和扩展。这样,当要查找某项数据时,只要跟据其key键就能不断的缩小查找区域,大大减小资源消耗。性能
尽管如此,这样的p2p网络缺点也很明显:因为每一个个体须要存有数量很多的相邻个体列表,因此当网络中发生大量新旧个体频繁加入和离开的“churn”事件时,整个网络的性能会大幅恶化,由于每一个个体的很大一部分资源消耗在相邻列表更新上(包括自身相邻列表的更新,和相互之间更新所储列表),同时许多peer所在的key也须要从新定义;另外,哈希表自己容量是有使用限制的,当哈希表中存储的数据空间大于其设计容量的一半时,哈希表就会大几率出现“碰撞”事故,这样的限制也使得依据DHT创建的p2p网络的总体效率大打折扣。
根据以太坊的运行特色,咱们能够大概勾勒出以太坊个体也就是客户端所组成网络的一些需求特征:
综上所述,咱们对以太坊中的p2p网络设计能够有个初步思路了:
以后的章节中,咱们能够逐步了解以太坊中的这个p2p网络通讯是如何完善并实现的。
以太坊中,管理个体间p2p通讯的顶层结构体叫eth.ProtocolManager,它也是eth.Ethereum的核心成员变量之一。先来看一下它的主要UML关系:
ProtocolManager主要成员包括:
小小说明:这里提到的"远端"个体,即非本peer的其余peer对象。以太坊的p2p网络中,全部进行通讯的两个peer都必须率先通过相互的注册(register),并被添加到各自缓存的peer列表,也就是peerSet{}对象中,这样的两个peers,就能够称为“相邻”。因此,这里提到的“远端"个体,若是处于可通讯状态,则一定已经“相邻”。
在运行方面,Start()函数是ProtocolManager的启动函数,它会在eth.Ethereum.Start()中被主动调用。ProtocolManager.Start()会启用4个单独线程(goroutine,协程)去分别执行4个函数,这也标志着该以太坊个体p2p通讯的全面启动。
由Start()启动的四个函数在业务逻辑上各有侧重,下图是关于它们所在流程的简单示意图:
以上这四段相对独立的业务流程的逻辑分别是:
以上四段流程就是ProtocolManager向相邻peer主动发起的通讯过程。尽管上述各函数细节从文字阅读起来容易模糊,不过最重要的内容仍是值得留意下的:本个体(peer)向其余peer主动发起的通讯中,按照数据类型可分两类:交易tx和区块block;而按照通讯方式划分,亦可分为广播新的单个数据和同步一组同类型数据,这样简单的两两配对,即可组成上述四段流程。
上述函数的实现中,不少地方都体现出巧妙的设计,好比BroadcastBlock()中,若是发送区块block,因为数据量相对重量级,则仅仅选择一小部分相邻peer,而若是发送hash值 + Number值,则发给全部相邻peer;又好比txsyncLoop()中,会从map[]中随机选择一个peer进行发送(随机选择的txsync{}中包含peer)。这些细节,很好的控制了单次业务请求的资源消耗对于定向区域的倾向性,使得整个网络资源消耗越发均衡,体现出很是全面的设计思路。
对于peer间通讯而言,除了己方须要主动向对方peer发起通讯(好比Start()中启动的四个独立流程)以外,还须要一种由对方peer主动调用的数据传输,这种传输不只仅是由对方peer发给己方,更多的用法是对方peer主动调用一个函数让己方发给它们某些特定数据。这种通讯方式,在代码实现上适合用回调(callback)来实现。
ProtocolManager.handle()就是这样一个函数,它会在ProtocolManager对象建立时,以回调函数的方式“埋入”每一个p2p.Protocol对象中(实现了Protocol.Run()方法)。以后每当有新peer要与己方创建通讯时,若是对方可以支持该Protocol,那么双方就能够顺利的创建并开始通讯。如下是handle()的基本代码:
handle()函数针对一个新peer作了以下几件事:
刚才提到,handle()函数以回调函数的形式被放入一个p2p.Protocol{}里,那么Protocol对象是如何交给新peer的呢?这部分细节,隐藏在新peer链接创建的过程当中。
全部远端peer与己方之间的通讯,都是经过p2p.Server{}来管理的,Server在整个客户端最先的启动步骤Node.Start()中被建立并启动,而node.Node是用来承载客户端中全部node.<Service>实现体的容器,下图简单示意了Node.Start()中与Server相关的一些步骤:
Node.Start()中首先会建立p2p.Server{},此时Server中的Protocol[]仍是空的;而后将Node中载入的全部<Service>实现体中的Protocol都收集起来,一并交给Server对象,做为Server.Protocols列表;而后启动Server对象,并将Server对象做为参数去逐一启动每一个<Service>实现体。
而因为eth.Ethereum对于<Service>.Protocols()的实现中,正是搜集了ProtocolManager.Protocols而成,因此ProtocolManager.Protocols最终被导入了p2p.Server.Protocols.
那么Server.Start()中作了什么呢? 下图是Server.Start()和run()函数体内,与新peer建立相关的主要逻辑:
能够看到,Server.Start()中启动一个单独线程(listenLoop())去监听某个端口有无主动发来的IP链接;另一个单独线程启动run()函数,在无限循环里处理接收到的任何新消息新对象。在run()函数中,若是有远端peer发来链接请求(新的p2p.conn{}),则调用Server.newPeer()生成新的peer对象,并把Server.Protocols全交给peer。
综合这两部分代码逻辑,能够发现:
一点体会:
从上述逻辑流程中能够感觉到,对于以太坊的p2p通讯管理模块来讲,管理Protocol才是其最重要的任务,尤为是经过Protocol中的回调函数的设定,能够在对方peer在发生任何事件时,己方有足够的逻辑进行响应。这也是这个核心结构体为什么被命名为ProtocolManager,而不是PeerManager的缘由。至于管理peer群的功能,基本上用一个列表或者map结构,或者peerSet{}就够了。
在上文的介绍中,出现了多处有关p2p通讯协议的结构类型,好比eth.peer,p2p.Peer,Server等等。这里不妨对这些p2p通讯协议族的结构一并做个总解。以太坊中用到的p2p通讯协议族的结构类型,大体可分为三层:
下列UML图描绘了上述三层p2p通讯协议族中的一些主要结构,但愿对于理解以太坊中p2p通讯相关代码有所帮助。
诸如以太坊这种去中心化的数字货币运行系统,天生适用p2p通讯架构。不过原理虽然简单,在系统架构的层面,依然有不少实现细节须要加以关注。