大数据时代,各种应用对消息解决方案的要求不只仅是数据的流动,而是要在持续增加的服务和应用中传输海量数据,进行智能的处理和分析,帮助业务作出更加精准的决策。git
Pulsar 与 TiDB 联合解决方案提供实时、高吞吐、稳定的数据输出,知足用户在大数据场景中对各种数据的应用与分析需求,普遍适用于日志收集、监控数据聚合、流式数据处理、在线和离线分析等场景。github
Apache Pulsar(如下简称:Pulsar)是云原生的分布式消息流系统,采用计算和存储分层的架构和以 Segment 为中心的分片存储,具备更好的性能、可扩展性和灵活性,是一款能够无限扩展的分布式消息队列。目前,StreamNative 公司提供基于 Pulsar 平台的下一代流数据总体解决方案。数据库
Pulsar 起初做为消息整合平台在 Yahoo 内部开发和部署,为 Yahoo Finance、Yahoo Mail 和 Flickr 等雅虎内部关键应用链接数据。目前,Pulsar 在雅虎全球的 10 多个数据中心提供服务,具有全网格复制能力,支持 140 万个主题,处理超过 1000 亿条消息,总体消息的发布延迟小于 5 毫秒。2016 年 Yahoo 把 Pulsar 开源并捐给 Apache 软件基金会(ASF),2018 年 Pulsar 毕业成为 Apache 软件基金会的顶级项目。apache
与大多数消息传递系统的单片架构不一样,Pulsar 采用分层分片式的架构,服务层和存储层都可以独立扩展,以提供更好的性能、可扩展性和灵活性,这种设计对容器很是友好,使得 Pulsar 成为流原平生台的理想选择。缓存
Pulsar 的企业特性包括消息的持久化存储、多租户、多机房互联互备、加密和安全性等。Pulsar 提供和 Kafka 兼容的 API,以及 Kafka-On-Pulsar(KoP) 组件来兼容 Kafka 的应用程序。KoP 在 Pulsar Broker 中解析 Kafka 协议,用户不用改动客户端的任何 Kafka 代码就能直接使用 Pulsar。安全
TiDB 是 PingCAP 公司自主设计、研发的开源分布式关系型数据库,是一款同时支持在线事务处理与在线分析处理 (HTAP)的融合型分布式数据库产品,具有水平扩容或者缩容、金融级高可用、实时 HTAP、云原生的分布式数据库、兼容 MySQL 5.7 协议和 MySQL 生态等重要特性。在 4.0 以前,TiDB 提供 TiDB Binlog 实现向下游平台的近实时复制,在 TiDB 4.0 中,引入 TiCDC 做为 TiDB 变动数据的捕获框架。 架构
TiCDC(TiDB Change Data Capture)是用来识别、捕捉和输出 TiDB/TiKV 集群上数据变动的工具系统。它既能够做为 TiDB 增量数据同步的工具,将 TiDB 集群的增量数据同步至下游数据库,也提供开放数据协议,支持把数据发布到第三方系统。TiCDC 是 TiDB Binlog 的升级方案 ,提供低延迟、高可用的数据订阅和同步服务,支持超大规模集群的水平扩展。并发
在 TiDB 生态链上,TiCDC 做为 TiDB 的数据出口有着很是重要的地位,其做用包括:构建 TiDB 主从和灾备系统,连接 TiDB 和其它异构数据库,经过开放数据协议(Open Protocol )与第三方数据生态系统进行对接。框架
TiCDC Open Protocol 是一种行级别的数据变动通知协议,为监控、缓存、全文索引、分析引擎、异构数据库的主从复制等提供数据源。TiCDC 遵循开放数据协议,向 MQ (Message Queue) 等第三方数据媒介复制 TiDB 的数据变动。运维
在 TiDB v4.0.4 版本中,TiCDC 开放数据协议(Open Protocol )能够与 Pulsar 实现无缝对接,提供实时、高吞吐、稳定的数据输出,知足用户在大数据场景中对各种数据的应用与分析需求,普遍适用于日志收集、监控数据聚合、流式数据处理、在线和离线分析等场景。
借助 Pulsar 所具备的 GEO-Replication 功能,Pulsar 与 TiDB 联合解决方案能够为 TiCDC 的消费者带来地理位置无关的变动事件订阅能力。同时,Pulsar 集群的快速节点扩容、故障的快速恢复能力能够为 TiCDC 事件的消费方提供更优的数据实时性保障。
伴鱼少儿英语
伴鱼少儿英语是目前飞速成长的互联网在线英语教育品牌之一,致力于打造更创新、更酷、让学英语更有效的新一代互联网产品。
伴鱼少儿英语原先采用的 Kafka 集群会遇到 Consumer Rebalance 问题,在剔除掉没法消费或者过慢的消费者的时候,会对其余消费者形成因消息过慢触发心跳超时等问题,Pulsar 在运维层面更方便和安全一些。
Pulsar 是原生支持跨数据中心的流数据同步方案,能够提供跨地域的复制功能,知足国内和海外数据中心机房双活的需求。此外,Pulsar 具有延迟队列的功能,随着大量 Topic 的建立,依然能够提供出色的性能和延迟保障,消息分散的落盘策略不会形成 IO 对磁盘的竞争。
基于上述缘由,伴鱼少儿英语采用了 TiDB 与 Pulsar 联合解决方案以知足核心业务的需求。
石基信息
石基信息是一家以提供酒店业信息系统总体解决方案为主要业务的高科技公司,主要从事酒店信息管理系统软件的开发与销售、系统集成、技术支持与服务业务。
在特定业务场景下,例如汇总全球全部酒店餐饮集团下单店的收入中心,以及每一个收入中心的不一样消费类别实时的明细数据,则须要建立几十上百万的 Topic,Pulsar 能够支持百万级别 Topic 数量的扩展,同时还能一直保持良好的性能。
此外,原先的 Kafka 集群在节点扩展的时候,会触发 Consumer Rebalance,形成消费者处理时间过长或者心跳超时等问题,给业务带来必定的影响。石基信息规划采用 Pulsar + TiDB + Flink 方案,构建面向将来的实时数仓解决方案,在知足应用层对分布式关系型数据库需求的同时,提高实时的数据分析和服务效率。
知乎
知乎是中文互联网综合性内容平台,以“让每一个人高效得到可信赖的解答”为品牌使命和北极星。知乎在首页个性化内容推荐、已读服务等场景中使用 TiDB 做为核心数据库,经过 TiCDC Open Protocol 输出日志到 Kafka,进行海量的消息处理。随着业务量级的增加,在使用的过程当中遇到了诸多因 Kafka 架构和历史版本实现上的限制而引起的问题。
单 Partition 数据量巨大的 Kafka 集群不管是扩容仍是故障恢复都须要很长的时间,业务没法容忍长时间的不可用,因此只能选择牺牲数据、重建集群的方式来加快恢复速度。Kafka Topic 太重的资源消耗致使在单一集群上支撑数千乃至数万的 Topic 相对困难。
早期版本 Kafka 不管是读取仍是写入都须要发生在 Partition 当前活跃的 Leader 上,读写流量都很高的集群会对 Broker 产生很是大的压力。Kafka 的一些问题在新版本中获得了解决,可是由于协议版本差异太大,没法直接经过升级服务端的方式进行滚动升级。
鉴于以上遇到的问题,考虑到 Pulsar 对原生跨地域复制(GEO-Replication)的支持同知乎将来基础设施云原生化的方向更加契合,知乎开始在一些业务中使用 Pulsar 替换 Kafka 。
知乎对 TiCDC 的核心模块进行了一系列开发工做( https://github.com/pingcap/ti... ),把 TiCDC Sink 与 Pulsar 进行对接,实现 TiCDC 的数据同步到 Pulsar。Pulsar 与 TiDB 联合解决方案已经在知乎的 CMDB 项目中得以应用,解决了现阶段在 Kafka 上遇到的问题。
Pulsar 对跨地域复制(GEO-Replication)的支持为生产者和消费者提供了地理位置透明的链接,生产者在任意数据中心生产的内容能够供任意一个数据中心的供消费者使用。分层存储(Tiered Storage)为大量历史数据的保存、审计、流量回放、低频明细历史事件分析等需求提供更低成本的实现方式。从消费模式看从数据多个副本并发读取消息的能力,极大地提高了数据读取的扩展性。此外,延迟消息分发(Delayed Message Delivery)便于实现许多特定的业务逻辑,可用于替代一些相对陈旧的历史技术方案。
目前,知乎对于 Pulsar 的应用处于早期阶段,实际上线的业务数量占比较小,从前期业务的实践来看,Pulsar 与 TiDB 联合解决方案的应用取得了理想效果。知乎将推进各项业务从 Kafka 向 Pulsar 进行全面的迁移,将来也将应用 Pulsar 到跨集群同步 TiDB 数据的场景下。
Pulsar 与 Kafka 的对比:
PingCAP 成立于 2015 年,是一家开源的新型分布式数据库公司,秉承开源是基础软件的将来这一理念,PingCAP 持续扩大社区影响力,致力于前沿技术领域的创新实现。其研发的分布式关系型数据库 TiDB 项目,具有「分布式强一致性事务、在线弹性水平扩展、故障自恢复的高可用、跨数据中心多活」等核心特性,是大数据时代理想的数据库集群和云数据库解决方案。目前已经国内外近 1000 家用户将 TiDB 用于线上生产环境。StreamNative 是一家围绕 Apache 顶级项目 Apache Pulsar 打造下一代流数据平台的开源基础软件公司,秉承开源是基础软件的将来这一理念,专一于开源生态和社区的构建,致力于前沿技术领域的创新,创始团队成员均是 Apache Pulsar 和 Apache BookKeeper 的核心 PMC 成员。