DHT网络

时间 2019-12-06

原文原文链接

@(基础技术)node

如今有一种方法，能够经过磁力连接，例如magnet:?xt=urn:btih:0482e0811014fd4cb5d207d08a7be616a4672daa，就能够获取BT文件。
这个是经过DHT网络来实现的。
DHT网络是一个去中心化的，分布式信息存储系统。
存储的信息就是bt文件。算法

1、节点

每一台电脑，就是一个节点。它既是客户端，也是服务端。
每一个节点都有一个节点ID，IP地址和端口号（节点进程的端口）。
节点ID由160位的二进制字符串组成，也就是长度为32的16进制字符串，跟咱们经常使用的md5同样。
经过异或算法，能够计算两个节点ID的距离。例如01和00的异或结果是01，也就是距离是1。json

2、路由表

每一个节点都会保存一个路由表，保存其余节点的信息，节点信息包括：节点ID，节点的IP地址和端口号。
路由表中，会有多个bucket，例如bucket-1，bucket-2等等。
bucket-i保存的是与自身节点ID距离为[2^i-1,2^i)的节点信息
每一个nodeid能够理解为深度是160的二叉树，二bucket-i就是自身的叶子的第i个父节点的兄弟节点的全部叶子节点（不太严谨）
以下图：
服务器

因此i最大值是160。网络

而为何要这么存了？
这样存是为了能够快速找到目标节点N2。
例如自身的节点ID是N1，须要寻找N2的IP和端口号。分布式

计算N1和N2的距离D
从bucket-D,找一个节点N3，若是N3=N2，就找到了，不然就向N3发送寻找节点N2的请求
N3接收到请求后，计算N2和N3的距离D1，从N3的路由表里面的bucket-D1，找到一个节点N4，返回N4的信息给N1
N1收到返回后，若是N4=N2，就找到了，不然继续向N4发送寻找节点N2的请求。一直递归。

由于N2和N3会处于同一个bucket，因此他们的距离D1不会超过D/2，因此每一次循环，得到的节点NN与N2的距离都会比以前的请求缩小1倍。因此时间复杂度是logN。跟二分查找是同样的。加密

3、信息发布

当发布者，须要发布信息（例如一个bt文件）到DHT网络。.net

发布者会计算信息的md5，M1
经过发布者的路由表，查询与M1的距离小于等于K的多个节点
向这些节点发送保存信息（Store）的请求，就会把信息存储在这些节点上

k通常要大于1。否则只会把信息存储在一个节点上，万一节点下线，或者退出网络，就会致使信息不能被找到。线程

4、数据包

节点与节点之间，经过UDP协议，传输数据包来通信。
DHT网络的数据包都是json格式。
必须字段：code

t:消息的id。由于是UDP传输，因此要带上消息ID，不要就不知道每一个包对应是哪一个包的回复。
y：数据包的类型，取值能够是：
- q，请求包
- r，回复包
- e，错误包，其实也是回复的一种
  
  1. 请求和回复包
  请求包必须字段
q，请求的类型，
- ping 嗅探Node是否可用
- find_node。寻找Node的请求
- get_peers。寻找有资源的Node
- announce_peer ，请求下载资源
a，请求的参数，类型是json里面的字典

回复包必须字段：
*r 回复的内容，字典

1.1ping

请求包
a包含字段

id，请求者的nodeid

包例子

{"t":"aa", "y":"q","q":"ping", "a":{"id":"abcdefghij0123456789"}}

回复包
r包含字段

id 回复者的nodeid

包例子

{"t":"aa", "y":"r", "r":{"id":"mnopqrstuvwxyz123456"}}

1.2find_node

请求包
a包含字段

id，请求者的nodeid
target，须要寻找的Node的nodeid

包例子：

{"t":"aa", "y":"q","q":"find_node", "a":{"id":"abcdefghij0123456789","target":"mnopqrstuvwxyz123456"}}

回复包
r包含字段

id 回复者的nodeid
nodes 在回复者的路由表中，与请求的target 的nodeid最接近的几个节点的信息，包含节点的ip，端口，nodeid。

包例子

{"t":"aa", "y":"r", "r":{"id":"0123456789abcdefghij", "nodes":"def456..."}}

1.3 get_peers

请求包
a包含字段

id，请求者的nodeid
info_hash 寻找的资源的hash
token 密钥

包例子

{"t":"aa", "y":"q","q":"get_peers", "a":{"id":"abcdefghij0123456789","info_hash":"mnopqrstuvwxyz123456"}}

回复包
若是回复者的路由表中，有存有info_hash资源的节点信息，就返回value，不然返回node，node的值和find_node同样
r包含字段

id 回复者的nodeid
value，拥有info_hash的节点信息
nodes 和find_node的nodes同样

包例子

{"t":"aa", "y":"r", "r":{"id":"abcdefghij0123456789", "token":"aoeusnth","values": ["axje.u", "idhtnm"]}}

1.4 announce_peer

请求包
a包含字段

id，请求者的nodeid
info_hash 寻找的资源的hash
token 密钥
port，下载资源的端口

包例子

{"t":"aa", "y":"q","q":"announce_peer", "a":{"id":"abcdefghij0123456789","info_hash":"mnopqrstuvwxyz123456", "port":6881, "token": "aoeusnth"}}

回复包
r包含字段

id 回复者的nodeid

包例子

{"t":"aa", "y":"r", "r":{"id":"mnopqrstuvwxyz123456"}}

2. 错误包

e 列表类型，第一个元素时错误id，第二个是错误的说明

{"t":"aa", "y":"e", "e":[201,"A Generic Error Ocurred"]}

错误类型有：

201 通常错误
202 服务错误
203 协议错误,好比不规范的包，无效的参数，或者错误的token
204 未知方法

5、工做流程

1.初始化

向一个固定的服务器，获取节点ID，完成冷启动
不断向已知的节点发送find_node请求，让本身的路由表里面的节点更多

2. 根据磁力连接，获取信息（bt文件）

获取磁力连接里面的md5，转换为二进制M1。
经过路由表，获取与M1距离最近的节点，而后向它们发送announce_peer 请求。若是节点有咱们想要的信息，就会把信息发过来，这样咱们就获取到了bt文件了。

6、DHT网络中收集bt文件的原理

向三个固定服务器发送find_node的请求，target是随机的nodeid或者是本身的nodeid，N1
服务器返回最接近N1的的3个nodeid的信息，这些信息是一个加密了的，固定协议的字符串，里面有node的ip，port和nodeid。自身节点把全部的node存储到路由表
新开一个线程，对node，再发送find_node请求，这时本身的nodeid是随机的
这样，就会致使在不少个DHTNode中，都有咱们ip和端口的信息，并且映射到不少不一样的nodeid
这样别人去这些DHTNode中寻找bt资源的时候，这些Node就极可能会返回咱们的IP，PORT给别人，那么别人就会向咱们发送announce_peer的请求，这样咱们就能拿到bt文件了

初始化，目的是让本身的nodeid加入到DHT网络中，并认识尽可能多的其余node，放到咱们的路由表。
1. 生成本身的nodeid。
2. 向固定的服务器（例如：），发送find_node请求，target是本身的nodeid，这样，本身的nodeid就会进入到固定服务器的路由表，这样其余node想固定服务器发送find_node请求的话，固定服务器就会返回咱们的nodeid给他们，这样咱们的nodeid就会进入不少其余Node的路由表了。
3. 发送给固定服务器的find_node请求中，会返回咱们附近的node的信息，保存到咱们本身的路由表
接收其余节点的请求。当咱们加入到DHT网络中，就会有其余节点发送请求给咱们。下面的请求处理完后，咱们都把请求者加入到咱们的路由表中。
1. 当咱们收到ping请求，就返回本身的id给它，表示本身在正常运行。
2. 当咱们收到find_node请求，就从咱们的路由表查找离target最近的N个node的信息，返回给它。
3. 当咱们收到get_peers请求，就从咱们的路由表中查找拥有该资源的peers信息，返回给它。
4. 当咱们收到announce_peer 请求，就从发送info_hash的资源到对应的端口

7、Bt文件下载原理

当获得BT文件后，就能够用bt文件下载器进行文件的下载
BT文件里面包含

tracket地址
目标文件列表，和分块信息。每一块是2k的倍数。分块信息包含每个分块的索引和MD5
BT文件的基本信息，如标题，每一个文件的大小和文件名等

下载流程

下载器请求tracket地址，获取其余也在下载该bt文件的节点信息
下载器链接其余节点，告诉自身缺乏的分块的索引和获取到对方缺乏的分块索引
若是自身有分块1，而对方没有，就向对方发送分块1
若是对方有分块2，而自身没有，就接收分块2
接收完一个分块后，计算md5，而后和bt文件里面的md5对比，若是正确，就下载完成，不然要从新下载。

因此bt文件的下载过程，并非去中心化的，tracket服务器就是一个中心化的服务器。
tracket服务器只管理下载节点的信息，并不会存储文件的具体分块。因此压力也比较小。
节点越多，下载的速度越快。

参考

未经容许，请不要转载

DHT网络

1、节点

2、路由表

3、信息发布

4、数据包

1. 请求和回复包

1.1ping

1.2find_node

1.3 get_peers

1.4 announce_peer

2. 错误包

5、工做流程

1.初始化

2. 根据磁力连接，获取信息（bt文件）

6、DHT网络中收集bt文件的原理

7、Bt文件下载原理