大数据集群跨多版本升级、业务0中断,只因背后有TA

摘要:2021年4月21日,中国太平洋保险集团联合华为云完成了全球首例大数据集群跨多版本的大数据集群滚动升级。

本文分享自华为云社区《华为云FusionInsight助力太保跨多版本升级业务0中断》,做者: 沙漏 。架构

2021年4月21日,中国太平洋保险集团联合华为云完成了全球首例大数据集群跨多版本的大数据集群滚动升级,突破传统方案需离线停机屡次升级模式,一次性将核心现网集群版本由FusionInsight HD C70升级到FusionInsight MRS 8.0.2,横跨C80、6.5.1两个版本,同时完成了大数据集群从物理机向云服务的模式转变,实现该案例在金融同业首例突破,树立同业新标杆。通过为期两周的升级实施过程操做,实现太保上层业务无感的平滑滚动升级,全程集群做业无中断、性能无影响。本次跨版本滚动升级的成功对金融科技领域意义重大,标志着中国太平洋保险为金融同业树立了大数据服务跨多版本升级、业务连续性和可持续演进的新建设标杆。运维

1、项目背景

中国太平洋保险集团从2017年选择华为云FusionInsight构建保险大数据平台。随着太保与华为云合做的持续深刻,其内部主要业务系统都已使用华为云大数据平台。可是早期各业务系统都建设了独立的大数据集群,数据没法互通,存在数据冗余,且多集群形成维护难问题。截止升级前已建设18套大数据集群,以FusionInsight HD C70版本为主。工具

随着太保业务的高速发展,对大数据平台的统一管理、数据共享、升级演进有了新的诉求,但愿将现网18套生产集群进行统一升级和归并,同时面向将来提供大数据集群可持续演进的能力。oop

为此,太保联合华为云,决定将现有18套大数据集群,由FusionInsight HD C70版本统一升级到MRS8.0,升级的主要目标:性能

  • 经过对原集群升级归并,统一为一套大集群,经过资源整合,提升资源利用率;
  • 统一到MRS平台版本资源监控更完善,定位问题更准确;
  • 升级到云平台,能够按需灵活调配资源,实现可演进的湖仓一体架构,扩展其余高阶服务。

2、项目内容

2.1 技术挑战

太保大数据集群按需部署了HBase、Hive、HDFS、ZooKeeper、YARN、Oozie、Hue、Spark等各种组件。测试

此外,集群中每日有上万做业的执行,也为无感知的滚动升级加大了难度。主要挑战有如下几点:大数据

  1. Hadoop组件内核由X到3.X的跨大版本升级中,社区仅提供了HDFS的滚动升级能力,YARN的社区原生目标版本因为与原版本协议不一样,没法支持滚动升级;
  2. 社区原生版本的HDFS在升级过程当中,删除的文件并不会物理删除,而是移动到trash目录,这一处理对大容量集群的滚动升级形成存储资源压力,阻碍了剩余信息保护,若是不能及时清理会致使爆盘问题;
  3. Hive组件内核由X到3.X的跨大版本升级中,因为元数据先后格式不兼容、API先后版本有变化、部分语法不兼容等问题,致使社区原生版本没法支持滚动升级;
  4. HBase组件内核由X到2.X的跨大版本升级中,API先后版本存在较大的变化,致使社区原生版本没法支持滚动升级;
  5. 每日上万任务量,滚动升级期间如何保障平稳运行,尤为是损益分析、减值测算等核心场景;
  6. 600+节点的大数据集群环境下,须要确保在升级过程当中突发情况,快速应对硬件(磁盘、内存等)故障,不影响升级;
  7. 70+业务系统,数百个业务在此集群上运行,滚动升级过程当中须要保证每个业务运行不受损。

2.2 技术保障

滚动升级就是借助于FusionInsight MRS的高可用机制、主备模式、多副本机制、机架策略等在不影响集群总体业务的状况下,一次升级/重启部分节点。循环滚动,直至集群全部节点升级到新版本。优化

下图为已HDFS组件滚动升级示例:orm

为应对上述技术挑战项目组建了滚动升级小组,由社区PMC、社区Commiter、版本Developer构成,主要执行了如下技术保障:blog

  • 依托协议同步、元数据映射转换、API封装转换等方式,解决了社区协议不一样、元数据格式不一样、API变化等致使的兼容性问题,保障了滚动升级过程当中低版本的组件客户端的正常使用;

  • 针对HDFS社区新版本升级过程当中的文件未删除问题,额外实现了trash目录自动清理,将逻辑删除转换为物理删除,并增补了旧版本按期清理trash目录的工具。确保了基础设施资源利用的有效性,下降存储成本;
  • 针对组件升级先后性能情况、升级时长、升级过程当中和过后可能出现的瓶颈点等问题,作了相应架构调整及优化,助力实现滚动升级的全局可控、全程无感、全面无误;
  • 运维管理方面,项目组针对性的研发了升级管理服务界面,能够端到端、分步骤地完成滚动升级,便于查看滚动升级状态,实现组件级控制。为了下降在升级过程当中对关键任务服务连续性的影响,项目实现了按升级批次暂停的功能,有助于在关键做业或者做业高峰时段,经过暂停升级进行风险规避,确保业务无影响。此外,为避免各类突发事件中断升级进程,项目实现了故障节点隔离能力,在故障发生时,能够跳过对应节点的升级动做,保障了故障处理和升级的同步进行。

2.3 组织保障

项目启动后,成立了以太保相关领导为项目经理,以华为交付和研发、太保的研发和运维为成员的联合项目组。本次升级面向的应用部门多达20+,平台涉及业务数量多且复杂。为保证滚动升级成功且整个过程当中业务要作到0中断,在升级前、中、后的6个月里由华为方主导,客户各个业务部门紧密配合,项目组制定了周密的组织保障制度。

太保升级项目组织保障

  1. 升级前准备阶段:在项目组总体协调和华为的研发支撑下,完成了70+应用代码改造及验证,并输出测试报告;为充分识别风险,华为主动提供测试环境硬件资源,项目组联合各应用部门,进行了3次升级演练的联合测试;为达成升级前置条件,华为专家调研指导,有效的进行了集群小文件合并、客户端整改、集群屡次巡检、升级方案的反复评审改进等升级前准备工做;
  2. 升级过程保障:在升级过程的两周期间,华为安排研发、方案等专家现场保障。华为协同太保联合项目组制定了24小时排班保障、联合项目组和应用部门间的信息反馈及沟通(滚动升级中每组件升级完都需业务验证及确认)、升级操做的联合项目组受权、升级操做的录屏监控等制度;
  3. 升级后观察:滚动升级完成后,联合项目组协调各应用部门进行应用业务验证,且已所有输出业务运行正常报告。后华为项目组后续持续观察两周时间,确认平台及应用运行正常后进行了本次升级提交。

3、总结与展望

太平洋保险联合华为公司完成的本次金融业首家大数据集群跨多版本的滚动升级,实现了上层业务无感知、全程集群做业无中断、性能无影响,切实保障了客户的核心利益,也树立了金融同业新标杆。

随着数字化技术的不断迭代升级,将改变传统保险运营模式,将来主要会呈现出如下三个方向的变革:

  1. 实现从大数到小数,增强风险数字刻画,从过去的大数几率到小数更加敏锐的感知,将从根本上改变传统的运营模式;
  2. 从实体到虚拟,数据已经是重要的生产资料,经过海量数据识别和评估新型资产的风险,将成为保险业的核心能力;
  3. 从保险到治理,数字化将提高保险公司自身风险管理能力,将更多的参与到国家、城市的风险治理当中,逐步从损失补偿到风险管理和治理。

面向将来,太平洋保险将携手华为持续创新,不断完善风险生态,贯彻"以客户需求为导向"的战略,建设"专一保险主业,价值持续增加,具备国际竞争力的一流保险金融服务集团"。

 

点击关注,第一时间了解华为云新鲜技术~

相关文章
相关标签/搜索