阿里5位嘉宾3个分享：HBaseCon Asia 2017干货满满

时间 2020-03-04

标签阿里嘉宾分享 hbasecon asia 干货满满栏目阿里巴巴繁體版

原文原文链接

HBaseCon是Apache HBase官方举办的技术会议，主要目的是分享，交流HBase这个开源分布式大数据存储的使用和开发以及发展。HBaseCon发起于2012年。一般HBaseCon的举办地是在美国，这是HBaseCon第一次在亚洲举行，命名为Apache HBaseCon 2017 Asia。并且此次会议举办地选择在中国深圳，也足以见得HBase在中国的火爆程度和中国开发者们对HBase社区所作的卓越贡献。数据库

Apache HBase是基于Apache Hadoop构建的一个分布式、可伸缩的Key-Value数据库，它提供了大数据背景下的高性能的随机读写能力。作为最先研究、使用和二次开发HBase技术的中国公司，阿里巴巴从2010年就开始使用HBase，通过近7年的发展，如今采用HBase存储的业务已经超过1000+，拥有了上万台的HBase集群规模，在HBase上存储的数据已达PB级。秉承开源和分享的精神，阿里把HBase的实践经验和改进不断回馈HBase社区，好比说Bucket Cache和Reverse Scan等功能，给HBase技术发展带来了很是深远的影响。同时，也给HBase社区培养了2名PMC和2名Committer，阿里在HBase社区的影响力可见一斑。那么此次HBaseCon 2017 Asia。阿里派出了一位HBase PMC和2位Committer，还有两位资深的HBase开发，给你们带来了十足的干货。性能优化

阿里干货系列网络

1、强同步复制session

传统的HBase主备集群同步使用的方案是异步复制，这使得主备集群数据之间会有短暂的数据不一样步现象。用户为了灾备，不得不放弃强一致模型。无法放弃强一致语义的用户，必须本身写一套复杂的逻辑来保证主备集群之间数据的读写一致性。阿里的HBase技术专家天引，在这次的HBaseCon Asia上给你们带来了强同步复制方案。并发

据天引介绍，强同步复制方案采用了主备并发写和RemoteLog技术，使得在同城网络条件下同步复制相对于异步复制仅有2%的吞吐量降低。当一个请求到达主库后，并发写本地和备库，到达备库的同步写不须要走完整的写入路径，而是直接写入RemoteLog，下降同步写开销与延时。除了同步链路外，还有一套异步链路将数据从主库复制到备库，所以正常状况下不须要回放RemoteLog的数据到备库，在主库不可服务的状况下，只须要回放RemoteLog中那些尚未被异步复制链路同步到备库的数据，异步复制只有几秒钟的数据延迟，这保证了能够在很短的时间内完成从主库到备库的切换。运维

此方案在大会现场引发了强烈反响，不少HBase用户表示这是他们期待已久的功能，但愿能尽快使用上。天引表示此功能目前基于阿里内部分支实现、运行及完善，将来将会回馈给社区。异步

2、SQL on HBase分布式

阿里HBase服务了大量的内部用户，并持续有新用户接入。可是使用HBase的用户有很大一部分是从传统的SQL数据库转过来的，HBase的rowkey设计和API的使用习惯对于他们来讲并不友好。为了下降这些转型用户的使用门槛，阿里在HBase上引入了SQL层。来自阿里的资深HBase开发工程师天穆，给你们详细讲解了如何玩转SQL on HBase。ide

经过优化，如今在阿里使用SQL访问HBase和原生API的速度已经相差无几，并且在SQL语法上，创造性地支持HBase多版本和时间戳等NoSQL才具备的功能。工具

另外，在HBase上同时支持了全局二级索引和本地二级索引。使用户能够在多列上创建索引，简化了业务的设计，提高了请求效率，下降了使用成本。

3、跨集群分区拷贝

HBase上一般承载着海量的数据，而在平常生产过程当中，随着业务的发展和公司数据中心的规划等缘由，这些海量数据须要常常搬迁，这一般对于运维来讲是一个很是头疼的问题。来自阿里的HBase社区Committer正研，分享了阿里跨集群分区拷贝的场景和成熟解决方案。

正研首先介绍了在阿里内部常见的须要数据拷贝的场景，好比说新建数据中心，HBase集群须要总体搬迁到新的机房;又好比说不一样机房内的HBase集群的增量数据同步，能够用replication来解决，可是对于存量数据，目前尚未比较高效的方案;另外还一个常见场景就是数据恢复，而传统的HBase备份还原工具都无法控制数据恢复的范围。

所以，阿里研发了Range Data Copy功能内置在HBase中，提供了一个简单高效，并且可以自动处理各类错误状况和灾难恢复的数据拷贝功能，使用这个功能拷贝一张200TB的表到另一个集群，所需时间不到5小时。

4、读写链路优化

在阿里使用HBase的过程当中，对HBase自己作了很是多的读写性能优化。来自阿里的HBase社区PMC绝顶和Committer天照，一块儿给你们分享了阿里在这方面所取得的一些成果。

一、使用Netty替代HBase原生的RPC server，大大提高了HBaseRPC的吞吐能力，下降了延迟 ;

二、引入新的HFileBlock编码格式，把顺序搜索变成了二分查找，提升了HBase随机读的能力

三、拆分写链路，释放阻塞的handler资源，提升了HBase写的吞吐能力 ;

来自阿里的这些优化黑科技，使HBase的能力又更上一个新台阶。而且这些优化和功能目前已经回馈给了社区，全部的HBase用户都能在新版本的使用得到这些技术红利。

总结

除了阿里带来的技术分享，现场许多其余公司也都带来了他们对HBase作出的改进和使用经验。好比说小米实现了AsyncClient，填补了HBase没有原生异步API的缺口;知乎使用kubernetes自动扩容缩容HBase集群，灵活地适应业务高速发展和瞬息万变;烽火网络隔离读写资源使近线查询更加稳定等等。

除了上述提到的这几个亮点技术分享，这次HBaseCon大会的每个session都很是精彩，给你们带来了一场又一场思惟碰撞的盛宴。Apache HBase“掌门人”Michael Stack也参加了这次会议，并与HBase开发者们举行了一次圆桌会议，共同探讨HBase的现状和将来。

此次HBaseCon的火爆程度，直接展现了国内企业和开发者们对HBase热情和指望。HBaseCon大会不只给HBase的使用者们带来了最新鲜的技术进展，互通有无，吸取其余公司的先进经验;也成为HBase使用者和开发者之间沟通的桥梁，能让开发者们看到业界动态，用户的需求，共同把HBase打形成一个更加易用，更高性能，更稳定的大数据存储。此次HBaseCon大会是一个很好的开端，指望HBaseCon Asia越办越好，给你们带来更多的干货!

最后

若是你对大数据在线存储、对HBase感兴趣，或者是想更好地使用HBase、开发更NB的产品，欢迎联系咱们(正研，zhengyan.ywl@alibaba-inc.com)，一块儿交流，互相学习!

相关文章

相关标签/搜索

纯干货分享

Bugly干货分享

ArchSummit干货分享

PHP 7 新特性

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公众号

欢迎关注本站公众号,获取更多信息

相关文章

>>更多相关文章<<