杉岩数据非结构化数据存储解决方案

传统的银行、保险行业的人工柜台、信贷申请、承保和理赔等业务除了在数据库中记录交易信息,每每也会产生大量的非结构化数据:身份证照片、纸质文件扫描件、取证文件扫描件、现场照片等,依据金融行业相关法规要求,这些文件需长期保存,以便于后督审计和避免可能存在的法律风险。数据库

杉岩数据非结构化数据存储解决方案

随着互联网金融的迅猛发展,金融行业的竞争日趋白热化,愈来愈多的金融公司但愿金融科技可以帮助企业下降揽客成本和客户服务成本,提高办公效率和风险评估效率。为此,各大金融机构竞相实施金融科技项目,如:智能化柜台,下降营业网点业务开通成本;无纸化柜台,提高柜台工做和服务效率;理赔智能手机客户端,提高用户理赔效率;智能化信贷审核,提高风险评估效率,下降人力投入成本;基础架构云化、容器化,提高基础资源的利用和管理效率等。安全

这些新型金融科技的背后,显而易见地会产生海量的图片、文档、音频和视频等非结构化数据,其文件个数和数据量都呈现爆发性增加,对原有的存储系统架构带来了更多的新挑战。服务器

海量非结构化数据带来的挑战微信

对业务部门来讲,海量小文件的访问性能相当重要,直接关系到终端用户的体验,而一个股份制银行省分行的柜台系统、信贷系统每一年会新增上亿个文件,大量小文件对文件存储是一大挑战,而不少银行已经在考虑如何实现文件大集中。架构

而随着VTM(远程虚拟银行服务系统)、双录系统的上线,存储容量需求高速增加,如保险公司银保的双录数据半年便可增长数百TB数据,存储是否可以提供高吞吐能力,来保障音视频文件的读写性能是重要的关注点。运维

大多数金融机构已经采用分布式数据库、大数据技术,来实现历史数据的在线统一存储和查询,而非结构化数据的存储规模可能会达到PB级甚至EB级,在这种状况下如何实现数据的统一存储和管理、历史数据的实时查询、将来的大数据分析,对存储高度智能化的管理能力提出了更高的要求。分布式

当前IaaS层云化是大趋势,私有云实现了计算和存储资源的云化,分布式数据库实现告终构化数据的云化,云化后的资源可按需分配、弹性扩展。而非结构化数据存储的云化却缺少很好的解决方案,尤为是随着音视频数据的加入,占用的存储空间愈来愈大,而这些数据的单位价值不高,如何下降单位存储成本也需重点考量。ide

为了解决银行、保险关键系统(如:柜台、信贷、承保、理赔等)的海量票据、证件、合同等文件数量庞大且不断累积致使的存储性能和扩展性瓶颈问题,金融行业非结构化数据存储的技术发展经历了四个阶段:性能

NAS存储阶段大数据

在金融行业早期文件数量很少、存储容量不大的阶段, 金融客户广泛采用NAS外置存储设备来放置影像资料,但随着文件的海量增加,单台NAS可管理的文件数量和容量都出现了瓶颈。在实际项目中咱们看到,用户的文件数量达到数千万时,访问时延可能达到秒级,这将直接影响到对最终用户的金融服务体验。而增长多台NAS外置存储设备,又会致使存储管理复杂性更高,同一应用系统数据存放在不一样设备上致使数据割裂。在中大型企业,IT人员将花费大量时间完成IT运维变动审批流程,同时还要时刻提防这种频繁变动可能致使的IT运维风险,没法真正聚焦在为业务创造价值上。

ECM阶段

随着文件数量的增长,金融机构开始引入ECM(企业内容管理系统),ECM统一管理多个NAS外置存储设备,并可动态增长NAS,对外提供统一的名字空间,文件管理规模相对于单台NAS存储大大增长。同时,ECM系统还支持文件的属性存放和属性检索,能够实现跨业务系统的文件检索,知足文件管理的须要。

但因为ECM接口为非标准协议,须要专门进行应用开发,应用改形成本高,目前主要应用在金融的柜台、信贷和后督的影像系统。更重要的是,ECM的投资成本较高,百TB数据的存储成本高达数百万,不适合存储音视频等价值密度较低的数据,维护的成本也很是高。

分布式数据库阶段

随着大数据技术、MPP分布式数据库在金融行业的兴起,金融行业尝试利用这些技术解决非结构化数据存储问题,对于海量小文件性能和扩展性确实有较大突破,且分布式数据库能够实现文件元数据的统一存储和检索,知足对内容管理的需求。

但分布式数据库是结构化存储架构,替换文件存储存在不少局限性。首先,因为MPP分布式数据库的架构限制,很难实现传统存储的部分高级功能,如:纠删码功能(相似分布式RAID)、文件去重等,致使存储成本太高,不适用于音视频等低价值密度数据的存储。其次,受限于SQL接口,没法实现目录和子目录的权限管理、配额管理、目录快照回滚等传统NAS存储的基本功能,致使数据缺少安全性机制及数据可靠性保障机制。此外,SQL、NoSQL做为文件存储,标准性差、接口使用复杂,不便于企业用户使用。该技术方案在部分金融机构尝试后,未能成为主流形态大范围推广应用。

对象存储阶段

反观互联网行业,近几年随着移动互联网和智能手机的蓬勃发展,微信、直播、短视频等新型应用带来的非结构化数据量已远远超过金融行业。因为数据量大、文件数多,所以须要寻找性价比高的存储方案,互联网在十年前就已经开始采用基于x86服务器的分布式架构来解决海量数据存储问题,出现过的技术包括GoogleFS、亚马逊的S三、阿里的FastDFS等基于HTTP访问协议的文件存储方案,因为亚马逊的公有云影响力,AWS S3对象存储逐步成为互联网行业的事实标准,目前阿里、腾讯、华为的公有云都采用兼容S3协议的对象存储技术。

对象存储的技术特色是基于x86服务器+分布式存储软件技术构建统一存储池,利用服务器本地磁盘实现PB级甚至EB级的大规模存储集群,可扩展性强。软硬件解耦,可实现硬件的动态淘汰和更新,无需像NAS进行设备更新时要完成数据迁移。采用简化的文件操做接口,单一名字空间可管理的文件数量相比NAS大数百倍。基于HTTP协议的SDK访问,无需挂载操做系统,应用可直接访问,适合应用云化和容器化场景及手机APP程序访问场景。协议标准化,符合基础架构标准化需求且与公有云兼容,便于应用系统在公有云和私有云间无缝迁移。

除了具有对象存储的基本特色,杉岩分布式对象存储软件聚焦金融行业,帮助金融客户构建本地私有云存储资源池。同时,将互联网对象存储技术进行深度产品化,并推出了更多的特性:
兼容FTP/文件接口,支持金融行业传统应用实现向对象存储的平滑迁移;
支持文件元数据和元数据检索,代替ECM功能,知足企业内容管理需求;
支持目录快照和快照策略、文件多版本和快速回滚,实现非结构化数据免备份,解决磁带库备份带宽不足和调取慢的问题;
支持多数据中心容灾及数据中心AA模式,实现业务的就近读写访问;
一套环境同时支持副本和纠删码(相似分布式RAID),兼顾金融核心业务系统的性能和音视频存储成本型应用需求;
支持数据冷热自动分层,知足业务性能的同时,下降历史冷数据的存储成本。

综上所述,随着金融科技的不断引入,非结构化数据类型更多、数据量增加更快,存储须要对数据进行统一管理和利用,金融行业的IT管理者须要根据信息化需求选择更为合适和具备前瞻性的存储方案。将来,可以结合大数据分析、人工智能技术,实现对金融海量非结构化数据的价值挖掘,推进金融行业蓬勃发展。

相关文章
相关标签/搜索