随着移动互联网的发展,大量的非结构化数据随之产生,不只对数据库存储大数据提出了新的要求,同时对于查询数据和进行大数据分析也提出了苛刻的要求,这些显然是单服务器处理能力没法知足的,天然创建一个集群是不可避免的。集群的复杂性你们众所周知,而MongoDB的优点之一正式能够帮助咱们解决这些问题。数据库
分片(sharding)服务器
分片是MongoDB提供的一种机制,其能够将大型的集合分割保存到不一样的服务器上。与其余的分区方案相比,MongoDB几乎能自动为咱们完成全部事情。只要咱们进行简单的配置,并告诉MongoDB要分配的数据,它就能够自动维护数据在不一样服务器之间的平衡。同时根据须要增减服务器,MongoDB也会自动移动平移已有数据。大数据
分片机制提供了以下三种优点spa
1. 对集群进行抽象,让集群“不可见”。blog
MongoDB自带了一个叫作mongos的专有路由进程。mongos就是掌握统一路口的路由器,其会将客户端发来的请求准确无误的路由到集群中的一个或者一组服务器上,同时会把接收到的响应拼装起来发回到客户端。进程
2.保证集群老是可读写。资源
MongoDB经过多种途径来确保集群的可用性和可靠性。将MongoDB的分片和复制功能结合使用,在确保数据分片到多台服务器的同时,也确保了每分数据都有相应的备份,这样就能够确保有服务器换掉时,其余的副本能够当即接替坏掉的部分继续工做。路由
3.使集群易于扩展。文档
当系统须要更多的空间和资源的时候,MongoDB使咱们能够按需方便的扩充系统容量。数据分析
实现数据分割
分片(shard)是集群中存储集合数据子集的一台或者多台服务器。在生产环境中一个分片一般是一个副本集(replica set)。
片键(key),MongoDB以其做为依据来肯定须要在不一样分片服务器之间移动的数据。例如咱们能够选择用户名(username)字段做为分片键,现有一用户名区间[“p”,”z”],那么wufengtinghai是属于这一区间的,那么数据最终会保存到与此区间对应的分片服务器上。
分配数据到分片服务器
分配数据到分片服务器可使用不一样的方式,了解不一样的方式能够加深咱们对MongoDB使用方式的理解。
一分片一区间
分配数据到分片最简单的方式莫过于一个区间一个分片。假设咱们有四个分片存储用户的相关信息,则咱们可能会获得以下的分片和区间的对应关系。
这种分片方式很是简单易懂,可是在一个大型繁忙的系统中却会带来许多的不便。假如大量的用户使用首字母在【“a”,”f”)中的名字来注册,这将会致使分片1比较大,所以须要将其一部分文档移动到分片2上,咱们能够调整分片1对应区间【”a”,”c”),使分片2的区间变成【”c”,”n”)。
若是移动数据后,分片2所以过载怎么办?假设分片1和分片2各有500G数据,而分片3和分片4各自有300G数据。那么按照这个方案,最终须要一连串的复制,总共算下来须要移动400G数据,考虑到须要在集群的服务器之间移动这些数据,可见移动数据量之大。
若是须要新加分片服务器进行水平扩展呢?假设此时每一个分片上都有了500G数据,那么咱们如今须要将分片4上的400G数据移动到分片5,将分片3的300G数据移动到分片4,将分片2的200G数据移动到分片3,将分片1的100G数据移动到分片2,整整移动了1T的数据!
随着分片数量和数据量的增加,这种噩梦将会持续下去,所以MongoDB不会采用这种方式。
一分片多区间
若是咱们采用一分片多区间的方式,咱们能够将分片1上的数据划分为两个区间,【”a”,”d”)包含400G数据,【”d”,”f”)包含100G数据,一样咱们也能够对分片2作相似的处理,获得区间【”f”,”j”)和【“j”,”n”)。如今咱们只须要将分片1上的【”d”,”f”)数据移动到分片4,将分片2的【“j”,”n”)的数据移动到分片3。这样咱们仅仅只须要移动200G数据。
若是要添加新分片,能够从每一个分片顶端取100G数据并将其移动到新的分片上,这样仅仅只须要移动400G数据便可。
MongoDB就是利用这种方式,当一个分片的数据愈来愈大时,其会自动分割片键区间,并将分片的数据进行分割并移动到其余分片。