搭建高可用mongodb集群（二）—— 副本集

时间 2019-11-12

原文原文链接

在上一篇文章《搭建高可用MongoDB集群（一）——配置MongoDB》提到了几个问题尚未解决。 html

主节点挂了可否自动切换链接？目前须要手工切换。
主节点的读写压力过大如何解决？
从节点每一个上面的数据都是对数据库全量拷贝，从节点压力会不会过大？
数据压力大到机器支撑不了的时候可否作到自动扩展？

这篇文章看完这些问题就能够搞定了。NoSQL的产生就是为了解决大数据量、高扩展性、高性能、灵活数据模型、高可用性。可是光经过主从模式的架构远远达不到上面几点，由此MongoDB设计了副本集和分片的功能。这篇文章主要介绍副本集： java

mongoDB官方已经不建议使用主从模式了，替代方案是采用副本集的模式，点击查看，如图：

那什么是副本集呢？打魔兽世界总说打副本，其实这两个概念差很少一个意思。游戏里的副本是指玩家集中在高峰时间去一个场景打怪，会出现玩家暴多怪物少的状况，游戏开发商为了保证玩家的体验度，就为每一批玩家单独开放一个一样的空间一样的数量的怪物，这一个复制的场景就是一个副本，无论有多少个玩家各自在各自的副本里玩不会互相影响。 mongoDB的副本也是这个，主从模式其实就是一个单副本的应用，没有很好的扩展性和容错性。而副本集具备多个副本保证了容错性，就算一个副本挂掉了还有不少副本存在，而且解决了上面第一个问题“主节点挂掉了，整个集群内会自动切换”。难怪mongoDB官方推荐使用这种模式。咱们来看看mongoDB副本集的架构图： linux

由图能够看到客户端链接到整个副本集，不关心具体哪一台机器是否挂掉。主服务器负责整个副本集的读写，副本集按期同步数据备份，一但主节点挂掉，副本节点就会选举一个新的主服务器，这一切对于应用服务器不须要关心。咱们看一下主服务器挂掉后的架构： mongodb

副本集中的副本节点在主节点挂掉后经过心跳机制检测到后，就会在集群内发起主节点的选举机制，自动选举一位新的主服务器。看起来很牛X的样子，咱们赶忙操做部署一下！
官方推荐的副本集机器数量为至少3个，那咱们也按照这个数量配置测试。 shell

一、准备两台机器 192.168.1.13六、192.168.1.13七、192.168.1.138。 192.168.1.136 看成副本集主节点，192.168.1.13七、192.168.1.138做为副本集副本节点。数据库

二、分别在每台机器上创建mongodb副本集测试文件夹 服务器

         #存放整个mongodb文件 
       
         mkdir-p /data/mongodbtest/replset 
       
         #存放mongodb数据文件 
       
         mkdir-p /data/mongodbtest/replset/data 
       
         #进入mongodb文件夹 
       
         cd /data/mongodbtest

三、下载mongodb的安装程序包 网络

1	wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.4.8.tgz

注意linux生产环境不能安装32位的mongodb，由于32位受限于操做系统最大2G的文件限制。架构

1 2	#解压下载的压缩包 tarxvzf mongodb-linux-x86_64-2.4.8.tgz

四、分别在每台机器上启动mongodb app

1	/data/mongodbtest/mongodb-linux-x86_64-2.4.8/bin/mongod --dbpath /data/mongodbtest/replset/data --replSet repset

能够看到控制台上显示副本集尚未配置初始化信息。

1 2	Sun Dec 29 20:12:02.953 [rsStart] replSet can't get local.system.replset config from self or any seed (EMPTYCONFIG) Sun Dec 29 20:12:02.953 [rsStart] replSet info you may need to run replSetInitiate -- rs.initiate() in the shell -- if that is not already done

五、初始化副本集

在三台机器上任意一台机器登录mongodb

         /data/mongodbtest/mongodb-linux-x86_64-2.4.8/bin/mongo 
       
         #使用admin数据库 
       
         use admin

#定义副本集配置变量，这里的 _id:”repset” 和上面命令参数“ –replSet repset” 要保持同样。

         config = { _id:"repset", members:[ 
       
         ... {_id:0,host:"192.168.1.136:27017"}, 
       
         ... {_id:1,host:"192.168.1.137:27017"}, 
       
         ... {_id:2,host:"192.168.1.138:27017"}] 
       
         ... }

#输出

         { 
       
                 "_id" : "repset", 
       
                 "members" : [ 
       
                         { 
       
                                 "_id" : 0, 
       
                                 "host" : "192.168.1.136:27017" 
       
                         }, 
       
                         { 
       
                                 "_id" : 1, 
       
                                 "host" : "192.168.1.137:27017" 
       
                         }, 
       
                         { 
       
                                 "_id" : 2, 
       
                                 "host" : "192.168.1.138:27017" 
       
                         } 
       
                 ] 
       
         }

1 2	#初始化副本集配置 rs.initiate(config);

#输出成功

         { 
       
                 "info" : "Config now saved locally.  Should come online in about a minute.", 
       
                 "ok" : 1 
       
         }

#查看日志，副本集启动成功后，138为主节点PRIMARY，13六、137为副本节点SECONDARY。

         Sun Dec 29 20:26:13.842 [conn3] replSet replSetInitiate admin command received from client 
       
         Sun Dec 29 20:26:13.842 [conn3] replSet replSetInitiate config object parses ok, 3 members specified 
       
         Sun Dec 29 20:26:13.847 [conn3] replSet replSetInitiate all members seem up 
       
         Sun Dec 29 20:26:13.848 [conn3] ****** 
       
         Sun Dec 29 20:26:13.848 [conn3] creating replication oplog of size: 990MB... 
       
         Sun Dec 29 20:26:13.849 [FileAllocator] allocating new datafile /data/mongodbtest/replset/data/local.1, filling with zeroes... 
       
         Sun Dec 29 20:26:13.862 [FileAllocator] done allocating datafile /data/mongodbtest/replset/data/local.1, size: 1024MB,  took 0.012 secs 
       
         Sun Dec 29 20:26:13.863 [conn3] ****** 
       
         Sun Dec 29 20:26:13.863 [conn3] replSet info saving a newer config version to local.system.replset 
       
         Sun Dec 29 20:26:13.864 [conn3] replSet saveConfigLocally done 
       
         Sun Dec 29 20:26:13.864 [conn3] replSet replSetInitiate config now saved locally.  Should come online in about a minute. 
       
         Sun Dec 29 20:26:23.047 [rsStart] replSet I am 192.168.1.138:27017 
       
         Sun Dec 29 20:26:23.048 [rsStart] replSet STARTUP2 
       
         Sun Dec 29 20:26:23.049 [rsHealthPoll] replSet member 192.168.1.137:27017 is up 
       
         Sun Dec 29 20:26:23.049 [rsHealthPoll] replSet member 192.168.1.136:27017 is up 
       
         Sun Dec 29 20:26:24.051 [rsSync] replSet SECONDARY 
       
         Sun Dec 29 20:26:25.053 [rsHealthPoll] replset info 192.168.1.136:27017 thinks that we are down 
       
         Sun Dec 29 20:26:25.053 [rsHealthPoll] replSet member 192.168.1.136:27017 is now in state STARTUP2 
       
         Sun Dec 29 20:26:25.056 [rsMgr] not electing self, 192.168.1.136:27017 would veto with 'I don't think 192.168.1.138:27017 is electable' 
       
         Sun Dec 29 20:26:31.059 [rsHealthPoll] replset info 192.168.1.137:27017 thinks that we are down 
       
         Sun Dec 29 20:26:31.059 [rsHealthPoll] replSet member 192.168.1.137:27017 is now in state STARTUP2 
       
         Sun Dec 29 20:26:31.062 [rsMgr] not electing self, 192.168.1.137:27017 would veto with 'I don't think 192.168.1.138:27017 is electable' 
       
         Sun Dec 29 20:26:37.074 [rsMgr] replSet info electSelf 2 
       
         Sun Dec 29 20:26:38.062 [rsMgr] replSet PRIMARY 
       
         Sun Dec 29 20:26:39.071 [rsHealthPoll] replSet member 192.168.1.137:27017 is now in state RECOVERING 
       
         Sun Dec 29 20:26:39.075 [rsHealthPoll] replSet member 192.168.1.136:27017 is now in state RECOVERING 
       
         Sun Dec 29 20:26:42.201 [slaveTracking] build index local.slaves { _id: 1 } 
       
         Sun Dec 29 20:26:42.207 [slaveTracking] build index done.  scanned 0 total records. 0.005 secs 
       
         Sun Dec 29 20:26:43.079 [rsHealthPoll] replSet member 192.168.1.136:27017 is now in state SECONDARY 
       
         Sun Dec 29 20:26:49.080 [rsHealthPoll] replSet member 192.168.1.137:27017 is now in state SECONDARY

1 2	#查看集群节点的状态 rs.status();

#输出

         { 
       
                 "set" : "repset", 
       
                 "date" : ISODate("2013-12-29T12:54:25Z"), 
       
                 "myState" : 1, 
       
                 "members" : [ 
       
                         { 
       
                                 "_id" : 0, 
       
                                 "name" : "192.168.1.136:27017", 
       
                                 "health" : 1, 
       
                                 "state" : 2, 
       
                                 "stateStr" : "SECONDARY", 
       
                                 "uptime" : 1682, 
       
                                 "optime" : Timestamp(1388319973, 1), 
       
                                 "optimeDate" : ISODate("2013-12-29T12:26:13Z"), 
       
                                 "lastHeartbeat" : ISODate("2013-12-29T12:54:25Z"), 
       
                                 "lastHeartbeatRecv" : ISODate("2013-12-29T12:54:24Z"), 
       
                                 "pingMs" : 1, 
       
                                 "syncingTo" : "192.168.1.138:27017" 
       
                         }, 
       
                         { 
       
                                 "_id" : 1, 
       
                                 "name" : "192.168.1.137:27017", 
       
                                 "health" : 1, 
       
                                 "state" : 2, 
       
                                 "stateStr" : "SECONDARY", 
       
                                 "uptime" : 1682, 
       
                                 "optime" : Timestamp(1388319973, 1), 
       
                                 "optimeDate" : ISODate("2013-12-29T12:26:13Z"), 
       
                                 "lastHeartbeat" : ISODate("2013-12-29T12:54:25Z"), 
       
                                 "lastHeartbeatRecv" : ISODate("2013-12-29T12:54:24Z"), 
       
                                 "pingMs" : 1, 
       
                                 "syncingTo" : "192.168.1.138:27017" 
       
                         }, 
       
                         { 
       
                                 "_id" : 2, 
       
                                 "name" : "192.168.1.138:27017", 
       
                                 "health" : 1, 
       
                                 "state" : 1, 
       
                                 "stateStr" : "PRIMARY", 
       
                                 "uptime" : 2543, 
       
                                 "optime" : Timestamp(1388319973, 1), 
       
                                 "optimeDate" : ISODate("2013-12-29T12:26:13Z"), 
       
                                 "self" : true 
       
                         } 
       
                 ], 
       
                 "ok" : 1 
       
         }

整个副本集已经搭建成功了。

六、测试副本集数据复制功能

         #在主节点192.168.1.138 上链接到终端： 
       
         mongo 127.0.0.1 
       
         #创建test 数据库。 
       
         use test; 
       
         往testdb表插入数据。 
       
         > db.testdb.insert({"test1":"testval1"}) 
       
         #在副本节点 192.168.1.13六、192.168.1.137 上链接到mongodb查看数据是否复制过来。 
       
         /data/mongodbtest/mongodb-linux-x86_64-2.4.8/bin/mongo192.168.1.136:27017 
       
         #使用test 数据库。 
       
         repset:SECONDARY> use test; 
       
         repset:SECONDARY> show tables;

#输出

1	Sun Dec 29 21:50:48.590 error: { "$err" : "not master and slaveOk=false", "code" : 13435 } at src/mongo/shell/query.js:128

         #mongodb默认是从主节点读写数据的，副本节点上不容许读，须要设置副本节点能够读。 
       
         repset:SECONDARY> db.getMongo().setSlaveOk(); 
       
         #能够看到数据已经复制到了副本集。 
       
         repset:SECONDARY> db.testdb.find();

1 2	#输出 { "_id" : ObjectId("52c028460c7505626a93944f"), "test1" : "testval1" }

七、测试副本集故障转移功能

先停掉主节点mongodb 138，查看13六、137的日志能够看到通过一系列的投票选择操做，137 当选主节点，136从137同步数据过来。

         Sun Dec 29 22:03:05.351 [rsBackgroundSync] replSet sync source problem: 10278 dbclient error communicating with server: 192.168.1.138:27017 
       
         Sun Dec 29 22:03:05.354 [rsBackgroundSync] replSet syncing to: 192.168.1.138:27017 
       
         Sun Dec 29 22:03:05.356 [rsBackgroundSync] repl: couldn't connect to server 192.168.1.138:27017 
       
         Sun Dec 29 22:03:05.356 [rsBackgroundSync] replSet not trying to sync from 192.168.1.138:27017, it is vetoed for 10 more seconds 
       
         Sun Dec 29 22:03:05.499 [rsHealthPoll] DBClientCursor::init call() failed 
       
         Sun Dec 29 22:03:05.499 [rsHealthPoll] replset info 192.168.1.138:27017 heartbeat failed, retrying 
       
         Sun Dec 29 22:03:05.501 [rsHealthPoll] replSet info 192.168.1.138:27017 is down (or slow to respond): 
       
         Sun Dec 29 22:03:05.501 [rsHealthPoll] replSet member 192.168.1.138:27017 is now in state DOWN 
       
         Sun Dec 29 22:03:05.511 [rsMgr] not electing self, 192.168.1.137:27017 would veto with '192.168.1.136:27017 is trying to elect itself but 192.168.1.138:27017 is already primary and more up-to-date' 
       
         Sun Dec 29 22:03:07.330 [conn393] replSet info voting yea for 192.168.1.137:27017 (1) 
       
         Sun Dec 29 22:03:07.503 [rsHealthPoll] replset info 192.168.1.138:27017 heartbeat failed, retrying 
       
         Sun Dec 29 22:03:08.462 [rsHealthPoll] replSet member 192.168.1.137:27017 is now in state PRIMARY 
       
         Sun Dec 29 22:03:09.359 [rsBackgroundSync] replSet syncing to: 192.168.1.137:27017 
       
         Sun Dec 29 22:03:09.507 [rsHealthPoll] replset info 192.168.1.138:27017 heartbeat failed, retrying

查看整个集群的状态，能够看到138为状态不可达。

         /data/mongodbtest/mongodb-linux-x86_64-2.4.8/bin/mongo192.168.1.136:27017 
       
         repset:SECONDARY> rs.status();

#输出

         { 
       
                 "set" : "repset", 
       
                 "date" : ISODate("2013-12-29T14:28:35Z"), 
       
                 "myState" : 2, 
       
                 "syncingTo" : "192.168.1.137:27017", 
       
                 "members" : [ 
       
                         { 
       
                                 "_id" : 0, 
       
                                 "name" : "192.168.1.136:27017", 
       
                                 "health" : 1, 
       
                                 "state" : 2, 
       
                                 "stateStr" : "SECONDARY", 
       
                                 "uptime" : 9072, 
       
                                 "optime" : Timestamp(1388324934, 1), 
       
                                 "optimeDate" : ISODate("2013-12-29T13:48:54Z"), 
       
                                 "self" : true 
       
                         }, 
       
                         { 
       
                                 "_id" : 1, 
       
                                 "name" : "192.168.1.137:27017", 
       
                                 "health" : 1, 
       
                                 "state" : 1, 
       
                                 "stateStr" : "PRIMARY", 
       
                                 "uptime" : 7329, 
       
                                 "optime" : Timestamp(1388324934, 1), 
       
                                 "optimeDate" : ISODate("2013-12-29T13:48:54Z"), 
       
                                 "lastHeartbeat" : ISODate("2013-12-29T14:28:34Z"), 
       
                                 "lastHeartbeatRecv" : ISODate("2013-12-29T14:28:34Z"), 
       
                                 "pingMs" : 1, 
       
                                 "syncingTo" : "192.168.1.138:27017" 
       
                         }, 
       
                         { 
       
                                 "_id" : 2, 
       
                                 "name" : "192.168.1.138:27017", 
       
                                 "health" : 0, 
       
                                 "state" : 8, 
       
                                 "stateStr" : "(not reachable/healthy)", 
       
                                 "uptime" : 0, 
       
                                 "optime" : Timestamp(1388324934, 1), 
       
                                 "optimeDate" : ISODate("2013-12-29T13:48:54Z"), 
       
                                 "lastHeartbeat" : ISODate("2013-12-29T14:28:35Z"), 
       
                                 "lastHeartbeatRecv" : ISODate("2013-12-29T14:28:23Z"), 
       
                                 "pingMs" : 0, 
       
                                 "syncingTo" : "192.168.1.137:27017" 
       
                         } 
       
                 ], 
       
                 "ok" : 1 
       
         }

再启动原来的主节点 138，发现138 变为 SECONDARY，仍是137 为主节点 PRIMARY。

         Sun Dec 29 22:21:06.619 [rsStart] replSet I am 192.168.1.138:27017 
       
         Sun Dec 29 22:21:06.619 [rsStart] replSet STARTUP2 
       
         Sun Dec 29 22:21:06.627 [rsHealthPoll] replset info 192.168.1.136:27017 thinks that we are down 
       
         Sun Dec 29 22:21:06.627 [rsHealthPoll] replSet member 192.168.1.136:27017 is up 
       
         Sun Dec 29 22:21:06.627 [rsHealthPoll] replSet member 192.168.1.136:27017 is now in state SECONDARY 
       
         Sun Dec 29 22:21:07.628 [rsSync] replSet SECONDARY 
       
         Sun Dec 29 22:21:08.623 [rsHealthPoll] replSet member 192.168.1.137:27017 is up 
       
         Sun Dec 29 22:21:08.624 [rsHealthPoll] replSet member 192.168.1.137:27017 is now in state PRIMARY

八、java程序链接副本集测试。三个节点有一个节点挂掉也不会影响应用程序客户端对整个副本集的读写！

         publicclassTestMongoDBReplSet { 
       
                 publicstaticvoidmain(String[] args) { 
       
                        try{ 
       
                              List<ServerAddress> addresses = newArrayList<ServerAddress>(); 
       
                              ServerAddress address1 = newServerAddress("192.168.1.136", 27017); 
       
                              ServerAddress address2 = newServerAddress("192.168.1.137", 27017); 
       
                              ServerAddress address3 = newServerAddress("192.168.1.138", 27017); 
       
                              addresses.add(address1); 
       
                              addresses.add(address2); 
       
                              addresses.add(address3); 
       
                              MongoClient client = newMongoClient(addresses); 
       
                              DB db = client.getDB( "test"); 
       
                              DBCollection coll = db.getCollection( "testdb"); 
       
                               // 插入 
       
                              BasicDBObject object = newBasicDBObject(); 
       
                              object.append( "test2", "testval2"); 
       
                              coll.insert(object); 
       
                              DBCursor dbCursor = coll.find(); 
       
                               while(dbCursor.hasNext()) { 
       
                                    DBObject dbObject = dbCursor.next(); 
       
                                    System. out.println(dbObject.toString()); 
       
                              } 
       
                       } catch(Exception e) { 
       
                              e.printStackTrace(); 
       
                       } 
       
                } 
       
         }

目前看起来支持完美的故障转移了，这个架构是否是比较完美了？其实还有不少地方能够优化，好比开头的第二个问题：主节点的读写压力过大如何解决？常见的解决方案是读写分离，mongodb副本集的读写分离如何作呢？

看图说话：

常规写操做来讲并无读操做多，因此一台主节点负责写，两台副本节点负责读。

一、设置读写分离须要先在副本节点SECONDARY 设置 setSlaveOk。
二、在程序中设置副本节点负责读操做，以下代码：

         publicclassTestMongoDBReplSetReadSplit { 
       
                 publicstaticvoidmain(String[] args) { 
       
                        try{ 
       
                              List<ServerAddress> addresses = newArrayList<ServerAddress>(); 
       
                              ServerAddress address1 = newServerAddress("192.168.1.136", 27017); 
       
                              ServerAddress address2 = newServerAddress("192.168.1.137", 27017); 
       
                              ServerAddress address3 = newServerAddress("192.168.1.138", 27017); 
       
                              addresses.add(address1); 
       
                              addresses.add(address2); 
       
                              addresses.add(address3); 
       
                              MongoClient client = newMongoClient(addresses); 
       
                              DB db = client.getDB( "test"); 
       
                              DBCollection coll = db.getCollection( "testdb"); 
       
                              BasicDBObject object = newBasicDBObject(); 
       
                              object.append( "test2", "testval2"); 
       
                               //读操做从副本节点读取 
       
                              ReadPreference preference = ReadPreference. secondary(); 
       
                              DBObject dbObject = coll.findOne(object, null, preference); 
       
                              System. out .println(dbObject); 
       
                       } catch(Exception e) { 
       
                              e.printStackTrace(); 
       
                       } 
       
                } 
       
         }

读参数除了secondary一共还有五个参数：primary、primaryPreferred、secondary、secondaryPreferred、nearest。

primary:默认参数，只从主节点上进行读取操做；
primaryPreferred:大部分从主节点上读取数据,只有主节点不可用时从secondary节点读取数据。
secondary:只从secondary节点上进行读取操做，存在的问题是secondary节点的数据会比primary节点数据“旧”。
secondaryPreferred:优先从secondary节点进行读取操做，secondary节点不可用时从主节点读取数据；
nearest:不论是主节点、secondary节点，从网络延迟最低的节点上读取数据。

好，读写分离作好咱们能够数据分流，减轻压力解决了“主节点的读写压力过大如何解决？”这个问题。不过当咱们的副本节点增多时，主节点的复制压力会加大有什么办法解决吗？mongodb早就有了相应的解决方案。

看图：

其中的仲裁节点不存储数据，只是负责故障转移的群体投票，这样就少了数据复制的压力。是否是想得很周到啊，一看mongodb的开发兄弟熟知大数据架构体系，其实不仅是主节点、副本节点、仲裁节点，还有Secondary-Only、Hidden、Delayed、Non-Voting。

Secondary-Only:不能成为primary节点，只能做为secondary副本节点，防止一些性能不高的节点成为主节点。
Hidden:这类节点是不可以被客户端制定IP引用，也不能被设置为主节点，可是能够投票，通常用于备份数据。
Delayed：能够指定一个时间延迟从primary节点同步数据。主要用于备份数据，若是实时同步，误删除数据立刻同步到从节点，恢复又恢复不了。
Non-Voting：没有选举权的secondary节点，纯粹的备份数据节点。

到此整个mongodb副本集搞定了两个问题：

主节点挂了可否自动切换链接？目前须要手工切换。
主节点的读写压力过大如何解决？

还有这两个问题后续解决：

从节点每一个上面的数据都是对数据库全量拷贝，从节点压力会不会过大？
数据压力大到机器支撑不了的时候可否作到自动扩展？

作了副本集发现又一些问题：

副本集故障转移，主节点是如何选举的？可否手动干涉下架某一台主节点。
官方说副本集数量最好是奇数，为何？
mongodb副本集是如何同步的？若是同步不及时会出现什么状况？会不会出现不一致性？
mongodb的故障转移会不会无端自动发生？什么条件会触发？频繁触发可能会带来系统负载加剧

参考：

http://cn.docs.mongodb.org/manual/administration/replica-set-member-configuration/

http://docs.mongodb.org/manual/reference/connection-string/

http://www.cnblogs.com/magialmoon/p/3268963.html

原创文章，转载请注明： 转载自LANCEYAN.COM

本文连接地址: 搭建高可用mongodb集群（二）—— 副本集