HDFS - 文件愈来愈多怎么办

随着业务的发展,服务器存放的文件就愈来愈多,初期的时候,咱们会直接经过扩容来解决这个问题。可是硬盘不可能存放将来全部增量的文件,而且硬盘不可能无限扩容,当硬盘分配完后,要么加硬盘,要么加服务器。
加硬盘多是比较快的方式,只要在程序中判断在某个时间节点的文件,写入和读取都在指定的盘符就能够了,可是每一个机器的接口有限,并且机架能够存放硬盘的位置也有限,当接口或者位置都占用了,空间不足要怎么办?因此能够用不少不少个服务器来存放并管理这些文件。
因为服务器出现问题是不可避免的,好比咱们软件的bug、操做系统的bug、硬盘故障、忽然断电甚至天然灾害等,因此为了保证数据的安全性,就须要用冗余的办法来存储,也就是说一个文件存放在多个服务器中,好比下图存放2个服务器,这样当服务器1出现问题的时候,咱们还能够从服务器2读取文件。冗余的副本越多,数据就越安全,固然存储的服务器成本也越高。
image.png
当存放一段时间后,服务器的状况以下,文件的大小咱们是不能控制的,因此每次上传文件的时候,还须要知道这个文件是否大于待上传服务器的可用空间。另外大小不一的文件也很差管理。
image.png
因此通常是把文件分红固定的大小块,好比64M或者128M,而后再上传到服务器。好比下图,把文件分红4块,而后存储在4个服务器中,每一个块的副本是3个。
若是说服务器1不可用了,文件一、文件二、文件4在其余服务器仍是存在副本的,文件仍是安全的。
image.png安全