Glusterfs3.3.1DHT(hash分布)源代码分析

时间 2019-12-07

标签 glusterfs3.3.1dht glusterfs dht hash 分布源代码分析繁體版

原文原文链接

1.DHT简介

GlusterFS使用算法进行数据定位，集群中的任何服务器和客户端只需根据路径和文件名就能够对数据进行定位和读写访问。换句话说，GlusterFS不须要将元数据与数据进行分离，由于文件定位可独立并行化进行。GlusterFS中数据访问流程以下：

1) 计算hash值，输入参数为文件路径和文件名；

2) 根据hash值在集群中选择子卷（存储服务器），进行文件定位；

3) 对所选择的子卷进行数据访问。

2.DHT源码流程分析

2.1正常流程

2.1.1建立目录

建立目录的主要步骤有：

1) 根据目录名计算哈希值，由其哈希值所在的hash区间肯定hashed卷。

2) 向hashed卷下发mkdir操做。

3) 待hashed卷返回后，再向除hashed卷以外的全部子卷下发mkdir操做。

4) 待全部子卷均返回后，合并目录属性。

5) 为每一个子卷在该目录上分配hash区间。

6) 将各自的hash区间写入子卷上该目录的扩展属性中。

7) 建立目录结束。

其流程以下图所示：

2.1.2建立文件

建立文件的主要步骤有：

1) 根据文件名计算hash值，根据父目录hash分布获取其hashed卷。

2) 若hashed卷空间,inode数目等没有超过上限，则直接在hashed卷建立该文件。

3) 若hashed卷空间,inode数目等超过了上限，则在子卷中选择一个最优的做为其avail卷。

4) 在hashed卷上建立DHTLINKFILE，其扩展属性中记录着avail卷的名字。

5) 在avail卷上建立该文件。

6) 建立文件结束。

其流程以下图所示：

2.1.3打开文件

Open文件的主要步骤有：

1) 向其cached卷下发open操做（在open前会调用lookup获取其cached卷）。

2) 若open成功，则将文件fd等信息返回，open操做完成(若是失败且返回的错误码是不存在，也会直接返回)。

3) 若open失败后会从新获取dst_node（由于有可能处于数据迁移第二阶段）。

4) 向从新获取dst_node在此下发open。

5) 若失败，返回错误码。

6) 若成功，将fd等返回上层，open操做完成。

其流程以下图所示：

2.1.4读取文件

读取文件的主要流程有：

1) 向cached卷下发read操做。

2) 若读取成功且该文件未处于数据迁移第二阶段，则将读取数据返回，这次读取结束。

3) 若读取成功但该文件处于数据迁移第二阶段，则会从新获取目标卷，再次下发read操做。

4) 若失败且错误码是ENOENT，则直接返回错误码。

5) 若失败或该文件处于数据迁移第二阶段,则会从新获取目标卷，再次下发read操做。

6) 第二次读取，若成功则将数据返回，若读取失败，将错误码返回。

7) 这次读取操做结束。

其流程以下图所示：

2.1.5写入文件

向文件写入数据的主要流程有：

1) 向cached卷下发write命令。

2) 待返回，若正处于数据迁移第二阶段，从新获取目标卷等信息，再次下发write命令。

3) 若正处于数据迁移第一阶段，从新获取目标卷等信息，在次下发write命令。

4) 将返回值等返回给上层(如有第二次write，将第二次write的返回值等返回给上层)。

写入数据的流程以下图所示：

2.1.6读取目录

读取目录项主要流程有：

1) 向全部子卷下发opendir操做。

2) 只将最后一个返回的返回值返回。

3) 根据上层readdir中offset定位到某个子卷，向该子卷下发readdir操做。

4) 将该子卷读取的目录项进行过滤（过滤DHTLINKFILE,若不是first_up_subvol，也将目录过滤掉），将读取的目录项返回。

5) 若该子卷读取的目录项过滤后个数为0且next_offset != 0,说明该subvol还没有读完，则继续向该subvol下发readdir操做。

6) 若该子卷读取的目录项过滤后个数为0但next_offset == 0,说明该subvol已经读完，则向next_subvol下发readdir操做。

7) 若是next_subvol不为空，则next_subvol下发readdir操做返回后，重复执行步骤4）的操做。

8) 若是next_subvol为空，说明该目录内的全部项以读取完毕。

注：上述中若count = 0但next_offset != 0，说明这次读取的目录项中均为目录和DHTLINKFILE，所有被过滤掉，因此count = 0。

读取目录的流程如图所示：

2.1.7lookup

Lookup操做的主要流程有：

1) 根据name获取其hash卷。

2) 若不是第一次查询且是目录，则向全部子卷下发lookup操做，比对与inode中的信息是否一致，若不一致则更新。

3) 若不是第一次查询但不是目录，则向cached下发lookup操做，若不存在，则需调用dht_lookup_everywhere.，找到后为其建立DHTLINKFILE。

4) 如果第一次查询且是目录，则会向其hashed卷下发lookup操做，而后再向其它子卷下发lookup操做，合并后返回。

5) 如果第一次查询但不是目录，则会向其hashed卷下发lookup操做，若返回的是DHT_LINKFILE,则还有向其cached卷下发lookup操做，将其属性返回。

Lookup操做的流程以下图所示：

2.2特殊处理

2.2.1添加卷后lookup

添加卷后lookup的主要流程有：

1) 执行添加卷命令后，将会从新初始化。

2) lookup目录时，待各个子卷将目录信息返回后，都会调用dht_layout_merge(),将各个子xlator指针，返回值等添加到layout中。

3) 而后调用dht_layout_normalize时，新添加的list.err(start=stop=0，在检测是否有空洞和重叠时已按hash区间排序，因此新添加的卷没有空洞和重叠)会被置为ENOENT。

4)       因此dht_layout_normalize返回!=0,而后进入目录修复。

5)       会调用dht_selfheal_dir_mkdir在新添加的卷上建立该目录setattr(该目录没有分布区间信息,因此不须要setxattr)。

6)       最后调用dht_selfheal_dir_finish结束。

注：再次lookup时，在dht_layout_normalize中由于layout->list.err < 0(err ==-1)，全部该函数返回0(第一次该函数会返回ret>0)，不会触发目录修复动做。

2.2.2后端手动添加文件
在后端手动添加文件后，再执行ls操做，其主要流程有：

1)       readdir时，其父目录会将该目录项返回给上层。

2)       而后对该文件进行lookup。

3)       若经过hashed_subvol直接定位到了该文件，则将该文件属性返回给上层。

4)       若没有，则会lookup_everywhere，找到该文件，而后将该文件做为其cached_subvol，并建立hashed_subvol到cached_subvol的连接文件。

2.2.3后端手动添加目录

后端手动添加目录后，执行ls操做，其主要流程有：

1)       若该新添加的目录不是位于first_up_subvol，则该目录向在其父目录readdir时会被过滤，即在挂载点不会看到你新添加的目录。

2)       若新添加的目录位于first_up_subvol，则在readdir父目录时会向将该目录项返回给上层。

3)       而后对该目录项进行lookup，在其hashed_subvol找到该目录的话，执行looku_directory（各个卷查找该目录）。若找不到，则会执行lookup_everywhere.

4)       在lookup_diectory后，若须要修复，则在各子卷建立该目录，并分配hash区间。

5)       在lookup_everywhere时，找到该目录，而后再执行looku_directory.

2.2.4修复目录layout
修复目layout的主要流程有：

1)       从新分配hash区间，hash区间按子卷个数划分，优先分配与原区间重叠最大的区间段。

2)       将从新分配的hash区间，存储到其扩展属性中。

2.2.5数据迁移
数据迁移的主要流程有：

1)       首先lookup该目录。

2)       遍历该目录下的DHT_LINKFIFE.

3)       若是该文件实际就是符号连接,则根据源文件信息在to上创建该符号连接，若是是设备文件，在to上mknode。而后将源文件unlink

4)       若是是普通文件，则在其hash卷上create该文件。

5)       而后打开源文件。

6)       检测是否含有空洞文件。

7)       进行读写。

8)       读写完毕后，move扩展属性。

9)       unlink源文件，truncate，而后清楚标志位等。

10)    迁移该文件结束。

3.结束

       经过对DHT源代码的分析，已基本清楚其工做流程。本文档描述了dht部分的工做流程，如有描述或理解错误，请各位给予指正，谢谢。(原文地址 Glusterfs3.3.1DHT(hash分布)源代码分析【文档中流程图登陆后才可见】
http://www.iesool.com/forum.php?mod=viewthread&tid=14&fromuid=1
(出处: 吖Sool-社区)
)

（我就是原文的做者，哈哈欢迎支持吖Sool-社区 http://www.iesool.com 注册有惊喜奥）