数据库是什么?对于普通人来讲,平常生活中可能根本不会接触到,做为数据库从业者提及来也挠头。举个例子,咱们打开水龙头就有水,按开开关就有电,不多会追溯源头问水是从哪里来,电从哪里来。今天,咱们就来说一讲你身边的Greenplum。数据库
当咱们用手机银行查看收支记录,打开社交应用查看新增消息,数据库就像是咱们看不见的水管和电线,在咱们一打开各类应用的瞬间,就准备好相应的数据和信息。网络
咱们身边各行各业用到Greenplum的案例有不少,其中一个应用和咱们平常消费息息相关——信用卡申请。不知道你们有没有经历早期信用卡申请?从提交到出卡起码要等上一到两个月。可是如今很多银行可以“秒批”,用户提交申请以后能够马上查到进度,一周以内就能拿到卡。这种体验的极大提高就少不了数据库在后台发挥的做用。架构
信用卡是银行或信用卡公司发放给信用合格的消费者的信用证实。为了保证消费者信得过,到了时间有能力还款,银行就须要根据申请人的我的信息、交易记录、职业特性、已有资产等等不一样维度进行判断。这些数据来自于用户提交、其余银行检索、其余的征信渠道,还要对这些数据进行交叉比对,校验数据真伪,避免诈骗。在人工审核的年代,申请人提交纸质申请,银行将这些纸质表邮寄发回信用卡审核中心,审核员一项项校验核查全部材料,还要交叉检索以核实数据真伪,好比一个在二线城市工做的30岁已成家的白领,他的收入和一年的交易记录是否匹配,其职业信息是否属实,公司运营状况是否稳定等。普通人看着一行行银行收支记录尚且头大,要人工核查这么多的信息,还有等数据之间的往返,就耗掉了大部分的时间。并发
提速的关键,一方面在于走向数字化、无纸化。纸质申请被线上申请替代,信息一提交就能快速录入,生成申请记录。紧接着,机审加人工复审替代纯人工审核。系统可以快速检索银行自身的业务数据库以及其余渠道的数据来源,快速匹配基本要求给出得分,假如申请人可以知足全部要求,就能马上批准,实现秒批。大部分状况下,银行仍是会进行第二轮的人工复审,保证信息获得全面核查,下降逾期风险。分布式
另外一方面,银行完善自身的信用数据库以及业务数据库,并且行业通用的数据库获得发展,好比全国我的征信系统以及银联授信风险共享系统等,实现用户信用数据互通。2000年左右,我国央行就牵头建设全国性的我的征信系统,把和我的相关的信息录入到统一的数据库里,这样全部国内商业银行能够接入查询我的的信用信息。网站
数据连通当然是好事,至关于你人在全国任一省市,均可以办理相应的银行业务,而不用回到原籍地的特定银行才能办理。可是也有种种要解决的技术问题,想象这个征信数据系统像一个巨大的仓库,里面存储的各类我的信息就像是一份份包含我的信息的文件, 当银行想要提取我的信息时,就会遇到以下几个挑战:spa
相似Greenplum的分布式数据库就能解决上述面临的问题,也是银行背后快速查询信息、快速得出分析结果的核心技术。分布式数据库是在传统集中型数据库的基础上发展出来的,二者之间的进化能够理解为:之前,全部数据都放在同一个巨大的仓库里,随着数据增长,可用空间愈来愈小,运营成本愈来愈高,查找文件的时间愈来愈久。当数据量达到必定临界值,现有的硬件平台没法承载更多的数据。分布式数据库就是不须要大仓库了,而是建一套小仓库,这些小仓库能够分布在不一样地方,可是都由一个系统来管理。管理员能够经过系统在各个小仓库中分别查找到对应的数据。htm
天天,仓库会接受来自全国各地的查询,2018年我国征信系统已经为9.7亿天然人创建统一的信用档案,日均我的信用报告查询477万余次。想象天天有几百万进出,有的要取,有的要存,稍不留神就有可能“大塞车”。Greenplum是基于大规模并行处理结构(MPP),总部会把这些查询分配到不一样的小仓库中同时进行处理。因为每一个小仓库有本身的存储空间、计算调度能力。使用者能够根据须要合理配置仓库集群规模,对比单机系统,MPP集群的架构能够驾驭更多的存储和计算能力,理论上有着无限的扩展能力。所以再多的数据量,再大的访问需求都可以游刃有余。blog
此外,当同时有好几我的来存取同一份记录时,Greenplum提供完善的事务支持,经过多版本并发控制和细粒度锁管理,使得多人同时访问、更新操做成为可能。当有人来读取记录时,系统会让他看当前版本的记录;假如同时是有人来修改记录,那系统就会让写的人看一个复印的版本,这样读写两不误,可以下降等待的时间,同时有保证永远读到有效的正确数据,写操做的数据的一致性不被破坏。图片
随着数据量的增长,仓库就面临空间不足的问题。相比于以往要从新建一个超大型仓库——不只占地耗资源、成本高昂,并且缺少灵活性,Greenplum的解决方法是采用一种灵活的“加盟”方式。这些仓库有各自独立的管理系统,独立的存储空间,仓库之间是由网络链接实现的。因此,当空间不足时,只须要新建小仓库就行了,这些小仓库更加廉价灵活,能够知足更严苛的应用场景,带来成本、效益、风控全方面的优点。这就比如是按照特许经营加盟,店与店以前独立运营,可是又由统一的品牌和网络联系在一块儿。对于银行来讲,这样的结构下降了维护数据库的成本,随着业务量加大,可以轻松扩展节点提高整个系统的存储和计算能力。
图片:Greenplum数据库结构
Greenplum做为全世界第一个开源分布式数据库,帮助中国多家商业银行加快业务处理,为客户提供更好的体验!做为一个主要面向企业的产品,Greenplum在技术上的努力和提高最终是为了服务真实的生活和工做场景,服务实实在在的每个用户。
参考文章:
https://wiki.mbalib.com/wiki/...
https://zhuanlan.zhihu.com/p/...
http://www.xinhuanet.com/fort..._129977374.htm
2015中国金融发展报告:社会信用体系建设的理论、探索与实践
得到更多关于Greenpum的技术干货,请访问Greenplum中文社区网站。