MongoDB Change Stream初体验

Change Stream是MongoDB从3.6开始支持的新特性。这个新特性有哪些奇妙之处,会给咱们带来什么便利?本次的文章将就这个主题进行初步讨论。javascript

Change Stream是什么?

顾名思义,Change Stream即变动流,是MongoDB向应用发布数据变动的一种方式。即当数据库中有任何数据发生变化,应用端均可以获得通知。咱们能够将其理解为在应用中执行的触发器。至于应用想获得什么数据,以什么形式获得数据,则能够经过聚合框架加以过滤和转换。这点将在后文中讨论。java

Change Stream的原理

咱们先来回顾一下MongoDB复制集大体是如何工做的:mongodb

  1. 应用经过驱动向数据库发起写入请求;
  2. 在同一个事务中,MongoDB完成oplog和集合的修改;
  3. oplog被其余从节点拉走;
  4. 从节点应用获得的oplog,一样在一个事务中完成对oplog和集合的修改;

至此,复制集同步完成。能够发现,整个同步过程是依赖于oplog来进行的。也就是说oplog实际上已经包含了咱们须要的全部变动数据。若是观测oplog的变化,是否就可以获得全部变动的数据了呢?对,change stream正是基于这个原理实现的。但事情并无这么简单!咱们来看一下问题有可能出在什么地方。shell

如何从断点恢复

现实世界中,没有哪一个应用是能够不间断运行的。不考虑bug致使的问题,正常的应用升级也会致使应用中断运行。那么在应用恢复的时候,从哪里开始继续获取变动呢?oplog固然是能够帮咱们作到这点的,但你必须对MongoDB足够了解,才知道有oplogReplay这样的参数,以及其余一些问题。数据库

如何有效地处理订阅

假设在一个应用中须要订阅10个不一样集合的变动状况,是否须要开10个tailable cursor去获取oplog的变动呢?若是是100个集合呢?出于效率考虑显然不该该这么作。那么整个过程就会变成一个生产者-消费者模式,由一个线程负责从oplog获取变动,由订阅的线程负责消费这些变动。虽然实现也不是那么复杂,而且多半能够找到开源实现,可是涉及多线程就已经足够让初学者头疼一阵的了。
公平地说,上面这些还不算严重的问题,下面这些问题可能会更让人头疼。安全

如何管理权限

想要tail oplog,必须对local.oplog.rs有读权限。实际上这至关于对整个数据库都有了读权限,由于全部的变动都会在这里体现出来。DBA可能会阻止你这么作,由于这实在不是一个很安全的作法。多线程

如何数据回滚

极端状况下,若是应用处理不当,MongoDB中可能发生数据回滚rollback的问题。若是仅仅经过跟踪oplog,则会出现已经通知出去的变动被回滚的状况。架构

幸运的是上面这些问题如今都不是问题了,由于change stream帮咱们规避了这些复杂的细节。框架

使用方法

因为各类驱动都会有不一样的语法和API,从shell中尝试使用change stream多是最简便的方法。这并不妨碍你随后在各类驱动中的使用,由于shell中能实现的功能在驱动中必定有对应的语法。下面就以shell为例看看change stream应该如何使用。性能

打开一个shell,订阅你须要关注的集合
好比:

var cursor = db.bar.watch();

为了便于演示,咱们在这个shell中不断遍历这个游标以获取新数据:

while(true) {
    if (cursor.hasNext()) {
        print(JSON.stringify(cursor.next()));
    }
}

打开另外一个shell,向bar集合中插入一条数据:

db.bar.insert({y: 1})

此时第一个shell中会当即输出变动数据:

{"_id":{"_data":{"$binary":"glzquiIAAAACRmRfaWQAZFzquiK0lDNo+K0DpwBaEARUMrm0ruVACoftuxjt1RtCBA==","$type":"00"}},"operationType":"insert","fullDocument":{"_id":{"$oid":"5ceaba22b4943368f8ad03a7"},"y":1},"ns":{"db":"test","coll":"bar"},"documentKey":{"_id":{"$oid":"5ceaba22b4943368f8ad03a7"}}}

这里的一些字段的简单介绍。更完整的介绍请查阅文档change events

  • _id: 用于恢复断点时使用。即知道这个值,应用断开后下次重启里就能够从这个断点以后开始恢复得到变动;
  • operationType: 操做类型,常见的值包括:

    • insert
    • update
    • delete
  • ns: 正在操做的命名空间
  • fullDocument: 完整的文档

从断点恢复

var cursor = db.bar.watch([], {resumeAfter: <\_id>})

此时使用hasNext()/next()便可获取到随后的变动。

注意事项

{readConcern: 'majority'}

为了不被回滚的更新被发布出去,change stream选择只在一个变动到达大多数节点(不可能被回滚)时,才会将这些变动发布到应用。使用的方式即{readConcern: "majority"}。所以如下这些状况下change stream都是不会向应用通知任何变动的:

  • 禁用了readConcern
  • 从旧版本升级,但没有更新featureCompatibilityVersion
  • PSA架构中S宕机;

断点可恢复时间

由于change stream是依赖于oplog工做的,天然也会面临oplog面临的全部问题。问题之一就是oplog被覆盖。所以想要保证断点能够恢复,必须保证应用在oplog window的时间内请求断点。

删除集合

若是在订阅集合变动过程当中集合被删除,则会收到一条invalid信息通知,表示集合已再也不可用:

{
    "_id" : {
        "_data" : BinData(0,"glzqxCcAAAACFFoQBFQyubSu5UAKh+27GO3VG0IE")
    },
    "operationType" : "invalidate"
}

参考资料

做者简介

张耀星,MongoDB亚太区首席技术咨询服务顾问。在MongoDB的开发、应用和咨询服务上有多年实践经验。做为MongoDB认证专家,曾经为不一样行业的各种大型客户提供过培训、性能调优、架构设计等各种MongoDB相关技术服务。

相关文章
相关标签/搜索