超融合基础架构与同城灾备建设实践

如何基于超融合及相应的 CDP 软件建设一个高可用、高稳定、高处理能力、低成本的灾备中心,进而知足监管要求,同时下降 IT 部门的 TCO?数据库

2012 年监管单位发出 《关于增强基金管理公司信息系统备份能力建设工做》 的通知,通知里面明确了公募基金公司须要按照《证券期货经营机构信息系统备份能力标准》执行落实各业务系统备份能力建设目标和等级。2018 年末,监管单位发布的《证券基金经营机构信息技术管理办法》再次提到备份系统建设要求,即证券基金经营机构应当确保备份系统与生产系统具有同等的处理能力。服务器

公募基金容灾方案面临的挑战
今年来,建设同城或者异地灾备机房,为核心生产系统建设同等处理能力的备份系统成为基金公司较为广泛的需求,但传统方案给 IT 部门带来较大的压力和挑战:网络

1.高昂的采购成本。传统架构须要购置大量服务器、同等性能的磁盘阵列而且对应的存储须要经过复制技术(例如 EMC VPLEX )保证数据冗余,应用系统层面须要经过负载均衡保证应用的高可用,才能构建同等处理能力灾备环境,这样的架构无疑须要高昂的预算才能知足。架构

2.复杂的运维工做。因为存储属于专业硬件设备,使用存储双活架构更是加大了存储运维复杂度,用户没法快速掌握产品运维能力,长期须要依赖原厂服务支持。并发

3.灾备演练流程繁琐。采用传统 SAN 架构建设灾备环境,没法高效完成灾备切换演练,须要多部门、多人员配合完成。负载均衡

超融合架构配合基于虚拟化的CDP为容灾方案成本与效率带来重要突破
近些年随着虚拟化普及度不断提高,愈来愈多的生产应用都在虚拟化平台(例如 VMware )上部署,甚至包括 Oracle 、 SQL 等数据库应用也开始向虚拟化平台转移。在此基础上,进一步产生了基于超融合虚拟化架构(HCI)以及专门配合虚拟化的持续数据保护(CDP)产品。运维

超融合架构以融合部署方式在单个节点内提供了虚拟化和分布式块存储,除了继承虚拟化的优点之外,还经过分布式块存储带来以下好处:异步

1.软件定义的架构基于 x86 服务器,配合融合部署模式,大大下降运维难度,同时减小了机架空间;分布式

2.副本和自动恢复技术解决了硬件单点故障问题并进一步下降故障带来的人工运维成本和风险;ide

3.分布式的架构带来良好的可扩展性和并发性能,用户可真正作到按需投资并得到远高于传统架构的存储性能。

另外一方面,新一代基于虚拟化的持续数据保护产品经过 VM 的复制(同步/异步)保证备份虚拟机里的配置和生产集群虚拟机一致,并带来了以下优点:

1.自动化回滚;

2.分钟级故障切换;

3.可在几分钟内完成回滚;

4.可进行无中断灾难恢复测试。

如下是 SmartX 超融合和 Zerto CDP 容灾产品的架构图示意:

超融合基础架构与同城灾备建设实践

国内某基金公司基于超融合+虚拟机CDP技术建设同城灾备机房实践
1、前期需求要点:
1.生产集群数据存储在一台中端存储,设备使用近 3 年,存储系统存在单点故障,须要解决存储单点故障问题;

2.考虑建设基于数据中心故障级别容灾中心,但预算有限,但愿性价比最高的解决方案;

3.因为 IT 部门人员有限,所以但愿数据中心的容灾切换足够简单,能够实现一键式切换演练;

4.现阶段 Oracle RAC 还部署在 IBM 小型机上,设备陈旧,考虑设备风险问题及运维复杂问题,但愿尽快淘汰 IBM 小机;

5.生产和灾备中心基础架构性能方面须支撑核心数据库系统的平常业务压力,且须要拥有同等业务处理能力;

6.灾备机房计划租用 IDC 机房,空间有限,但愿设备越少越好,同时要保证后续扩展便捷。

超融合基础架构与同城灾备建设实践
原生产中心基础架构(变革前)

2、方案建议:
1.结合本次机房改造+灾备中心建设需求,推荐采用两套 SmartX 超融合集群+ CDP 灾备软件 (第三方软件) ,建设数据中心故障级别容灾中心;

2.经过 P2V 、 V2V 方法将小型机上 Oracle 数据库及核心生产应用迁移到超融合平台,淘汰老旧设备,经过超融合冗余技术(副本技术、机架感知技术等)解决集群硬件单点故障;

3.硬件均为标准 x86 服务器及以太网交换机;

4.经过超融合架构, 构建统一的存储池,提高总体系统性能,提高扩展能力,下降难度;

5.经过 CDP 灾备软件实现秒级的 RPO 和分钟级的切换。

3、方案成效
基于上述方案建设思路,方案实现后的架构和效果以下:

超融合基础架构与同城灾备建设实践

1.核心业务全支撑。完成两个数据中心的建设,所有生产系统均迁移至超融合平台,包括 O32 系统、估值系统、TA 系统、直销系统、各种 Oracle 数据库 (投资、TA、估值、风控、数据中心)、行情、报盘等;

2.多套机制保障业务连续性和数据可靠性。核心生产数据由 1 份数据增长到存放 3 份,即生产集群数据 + 灾备集群数据 + 利旧服务器搭建的 Oracle 服务器集群数据。其中,Oracle 服务器集群使用数据库 DG 功能进行复制,生产集群和灾备集群都采用双副本技术进一步保障;

3.统一为 x86 架构软件数据中心。生产集群由小型机 + x86 服务器 + 集中存储变为分布式 x86 服务器加软件构建的双超融合集群,并经过超融合管理界面,轻松管理生产、灾备集群,大幅下降运维工做量;

4.实现持续容灾保护。打通生产集群及灾备集群网络二层架构,经过 CDP 工具实现 RPO 秒级、RTO 分钟级容灾能力,两个集群上虚拟机互相备份,一键切换,极大的下降灾切演练复杂度;

5.首次投入成本大幅节省,将来实现真正的按需投资。两个集群都可水平扩展,按需投资,基础资源投入可知足 1-2 年需求便可。不使用专业硬件,首次采购成本降低明显;

6.机柜空间缩减 83% , IDC 租赁费用大幅下降。 IDC 使用超融合高密一体机,将此前生产基础架构全部硬件设备使用的 12 个机柜缩减到 2 个机柜,下降了 IDC 租赁费用;

超融合基础架构与同城灾备建设实践

  1. 网络架构大幅简化。以太网+ SAN 网络的复杂网络架构转变为简单的以太网络架构;

升级以前

超融合基础架构与同城灾备建设实践

公募基金公司升级前的网络架构图

升级以后
超融合基础架构与同城灾备建设实践

公募基金公司超融合架构升级后的网络架构图
8.性能大幅提高。超融合极大提高了存储 IO 性能,经过测试验证投资管理平台订单处理效率提高明显,其中委托下单含成交回报可达 130笔/s ; TA 系统完成跑批执行时间相比此前缩短超过 5 倍。

总结
经过超融合基础架构以及基于虚拟化的 CDP 容灾技术构建的新一代 IT 基础架构,较为快速的完成了数据中心级容灾方案的建设,符合 “稳态+敏态” IT 建设规划,同时简化基础架构运维工做,极大的提高了运维效率,下降了采购成本,使得信息技术部门可将更多的精力投入到公司业务发展层面上,但愿以上方案和实践能够为业内带来有价值的参考。

了解更多金融行业解决方案,请点击:https://www.smartx.com/solution/finance/

相关文章
相关标签/搜索