1、楔子算法
大数据传统企业实施,其路漫漫,毫不会如昙花一现,探索大数据在传统行业的实施之路,寻找一条适合传统行业的企业大数据实施方法体系,是我执着坚守的信念,大数据是一种信仰,吾将上下而求索。记下项目中的点滴,算是日志,自勉。数据库
2、项目背景服务器
最近在处理一个商业银行的大数据项目,旨在构建大数据资源池,项目边界确认过程当中,针对项目的定位出现了两种不一样的观点,对大数据的在传统行业 的应用有了新的启发。观点1、大数据做为操做数据历史库,存储操做数据库数据,提供历史数据长周期,快速检索的历史数据存储和快速查询服务。观点2、大数 据做为数据仓库的的历史库,解决数据仓库历史数据存储的问题,构建一个大容量,高可用的数据存储平台,为全量数据分析和知识挖掘提供服务。做为操做数据库 的历史库,已经完成了项目的实施,可是做为数据仓库的历史库以前的定位一直是取代,基于大数据作数据分析和知识挖掘,如今却找到了一个新的切入点,才发 现,原来两者并不矛盾。架构
3、数据仓库与操做数据库机器学习
数据仓库的定义并没有统一的说法,一般的到人们承认的概念是:一个面向主题的、集成的、时变的、非易失的数据集合,支持管理者的决策过程。简单点说数据仓库就是一种语义上的数据存储,它充当决策支持数据模型的物理实现,并存放于企业战略决策相关的重要信息。数据库设计
数据仓库不一样于操做数据库,操做数据库的主要任务是执行联机事务处理和查询处理,称做联机事务处理(OLTP)系统。数据仓库系统在数据分析和决策支持方面为用户或者机器学习提供服务,即联机分析处理(OLAP)。两者的主要区别在于五个大的方面:性能
1)用户系统的面向性:客户与市场;学习
2)数据内容:当前与历史;大数据
3)数据库设计:ER与面向主题设计
4)视图:当前与全景
5)访问模式:原子事务与只读操做
传统模式下数据仓库服务器一般采用关系型数据库,也就是说从软件实现的角度,数据仓库和操做型数据采用的模式是同样的。这就决定了,数据仓库和操做数据库面临一样的问题:行业垄断带来的成本依赖、数据模型带来的存储瓶颈和运算瓶颈。
数据仓库的三层架构以下图所示:
4、大数据的位置
数据仓库系统应用大数据技术的模式还在探索,可是目前总结了几个方面的应用。
1)大数据做为数据仓库的历史数据存储系统:解决数据仓库只能存储短时段数据的问题
2)构建基于大数据平台的数据模型,致力于低成本的数据挖掘体系:传统BI的瓶颈在于软硬件绑定、商业垄断和处理性能,基于但数据开源体系的算法模型和并行计算能力,构建全量的数据分析和挖掘,最终目标在于取代原有高成本的BI体系,为企业下降负担。
3) 实时+离线模式的确立,能够充分利用企业已有的IT资源设施,充分利用成熟的BI技术,从而为企业提供更好的服务。
5、遗留问题
大数据定位为离线的数据仓库,将会出现三级数据存储模型,实时操做库-数据仓库-大数据资源池,目标有定位已经明确,可是具体实施仍要探索,未完待续...