金融机构建设数据仓库并不是一朝一夕之事,须要投入巨大的人力物力,是整个公司战略级的项目,本文只是结合本身的行业知识,整理下大概的建设思路。html
什么是数据仓库?来自百度百科的解释:数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业全部级别的决策制定过程,提供全部类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而建立。 为须要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。数据库
从上面概念中,大概能够知道数据仓库是用于上层分析性报告和决策支持的基石,也就是如今流行的数据中台中重要的组成部分。因此搭建好数据仓库,是整个数据中台建设的重中之重。大数据
数据仓库通常分为4个层,依次是数据缓冲层-->数据整合层-->数据基础层-->数据服务层,加上底层应用系统的数据源层,和上层分析应用的数据集市层,整个分布图大概以下:spa
下面主要说明下,每一个层的做用,以及层与层以前的转换边界问题。htm
数据源:主要是企业早期创建的各个独立的业务系统或者数据中心,简单的说就是各个数据库DB实例。blog
数据缓冲层:也称贴源层或ODS层,存储的表数据基本和数据源一致,只是扩展了数据导入时间和导入日期,由于它的数据来源须要经过ETL从数据源层抽取转换过来。get
数据整合层:也称模型层,这层是整个数据仓库最重要的,它的做用是对公司的全域数据进行系统建模,相关人员必须对整个行业的业务十分熟悉,好比基金行业,须要对证券主信息标准化,证券市场信息标准化,数据字典标准化,数值(单位)标准化,记录(数据来源)标准化等等。数据缓冲层到数据整合层,会涉及到数据的简单清洗和转换,但不会涉及到计算过程。关于行业标准,这里引用下《中国资本市场标准网》http://www.csisc.cn/zbscbzw/hysjmx/index_hysjmx.shtm基础
数据基础层:也称基础指标层,从数据整合层到数据基础层,会涉及指标因子的计算,好比持仓市值=持仓数量*收盘价,不过基本都是简单的计算。百度
数据应用层:也称指标准备层,从数据基础层到数据应用层,会涉及指标的深度计算,好比由数据基础层计算的收益率,延伸计算为7日收益率,成立以来收益率等等。数据基础层造成的指标,也会直接复用到数据应用层。扩展
数据集市:这层主要是业务场景的应用,根据具体的业务场景,由数据应用层的指标进行拼凑,造成具体的解决方案,供上层应用分析,决策。
本文只是对数据仓库作个简单介绍,后续有时间再针对每一个点涉及的技术(好比大数据平台的应用)做深刻剖析。