太平洋保险集团
“家园项目”大数据平台DSG应用(oracle&kafka)mysql
项目背景
根据太平洋保险集团的IT建设规划,在2017年年末,须要完成“一个太保,共同的家园”项目(简称家园项目),旨在给客户提供更加便携、全面的服务,经过一个家园平台,就可以完成全部的服务。
众所周知,太平洋保险的业务范围很是普遍,囊括了产险、寿险、车险等业务,同时,一个险种又由多个系统共同提供服务。如今要在一个平台上完成这些服务,数据的汇聚、集中、转换就成了整个项目的核心与难点。sql
项目需求
根据太保家园项目的最终目标,在一期建设中,须要将太平洋保险集团下属的寿险,产险,车险等30多个核心系统数据,经过实时同步复制的方式,统一集中到大数据平台。其中涉及数据的转换,标化,清洗,去重等一系列过程,具体需求以下:
一、 须要将核心数据从30多个系统同步到大数据平台的kafka组件。
二、 确保数据复制的实时性(秒级)和数据的准确性
三、 复制的数据须要加上时间,操做类型等标签,便于后端应用识别
四、 以生产环境的dg库做为数据的汇聚源端,减轻对生产库的影响
五、 入kafka的数据格式可灵活配置,以便更好的适配后端应用
六、 须要具有数据操做统计和数据比对功能,便于核对数据的准确性数据库
项目难点
在实现整个家园项目的数据汇聚中,根据项目需求和实际的生产环境状况,要完成整个数据同步,主要存在如下一些难点:json
数据准确性要求高。家园平台承载着全部的查询、部分业务办理,若是数据不许确,必然引发业务逻辑混乱,没法为用户提供服务等问题。后端
解决方案
在此方案中,采用DSG SuperSync产品完成oracle到kafka的数据复制,方案架构如上图所示。在太保的系统架构中,生产中心位于上海,灾备中心位于成都。全部核心系统在本地生产中心均建有一级DG库,在成都灾备中心建有二级DG库。同时,这次项目的大数据中心也位于成都灾备中心。基于这种架构考虑,把数据量较大的全量同步放在成都的二级DG库上,这样能够节省上海到成都的带宽资源,同时提升同步效率。同时增量同步放在上海本地的一级DG库,以知足实时同步的要求。安全
方案优点
该方案具备如下优点:网络
DSG SuperSync产品的数据复制效率,在该领域中是最高的。在kafka的投递端,能够采用多线程、多并发等方式进行加速投递,现场效率能够达到每秒2万条的多线程
DSG简介
DSG是领先的致力于数据存储管理的专业厂商,提供优秀的大数据管理软件和数据安全、灾难恢复、数据抽取共享、数据归档检索和一体化管理平台在内的解决方案,产品包括:备份、容灾、数据同步复制/抽取/共享、数据归档、数据稽核等,在国内获得了普遍的应用。目前公司拥有员工近300余人、全国设有3个研发中心、20多个办事处和分支机构,服务网点覆盖全国,在中国市场拥有数百家电信、金融和政府行业的高端用户。
SuperSync数据同步复制软件应用:(国内800余家客户,在原有强大的Oracle的实时同步复制/灾备外,还能够支持Mysql/Sql/DB2/PostgreSql/Hana/Qcubic/Redis/Teradata/浪潮K-DB/达梦/南大Gbase等国内外各种数据库与Hadoop、HBase、Phoneix、Storm、Flume、Spark、Kafka、tibc、阿里云间的实时同步复制,可根据kafka等格式需求定制(添加字段/数据转换/分类等),应用在大数据共享、读写分离和实时灾备等方面。架构