数据仓库系列之关于数据仓库自动化技术

  目前市面上的BI工具都在说起敏捷BI解决方案。敏捷BI解决方案所提供的自动化技术支持主要是从数据源取数到BI前端工具展示。这样的敏捷BI解决方案在企业数据量不是很庞大的状况下,仍是很好的支撑运行。PowerBI能够支持大量的数据处理,可是对于硬件设备的要求也是很是高的。可是数据量变得愈来愈庞大就会致使BI报表出现运行缓慢,大屏展示出现数据延迟等等现象。html

  若是项目较小例如上图中的动态销售报告,只是为了展示EXCEL中少许的数据。使用PowerBI工具彻底能够知足你们的须要。真正要作到敏捷BI总体数仓解决方案,仍是须要在数据源和BI前端工具的中间加入数据仓库。在数据仓库中处理数据对于源数据没有任何侵入性,也不会对源数据系统形成影响。数据仓库的搭建可能你们用过SSDT工具应该知道,搭建数据仓库仍是很繁琐的。搭建数据仓库仍是须要借助数据仓库自动化工具。前端

  数据仓库自动化的工具正变得愈来愈主流,如今他们明显的好处:数据库

  一、  快速交付编程

  二、  开发成本较低数据结构

  三、  开发周期短对于一个商业智能项目完成,再也不须要等待三至六个月。工具

  四、  维护成本低,无需投入大量的技术人员维护学习

  市面上已经有的ETL工具具备自动化技术,我在前面的ETL过程和ETL工具介绍已经说起了,这里就再也不作过多的描述。有一些事情你应该知道,评估来自不一样供应商的产品的维度。设计

  1、有些工具数据仓库的自动化程度较低。代码规范

  一些数据仓库自动化工具就存在不可以自动化处理模型,大多数开发商在作示例都是使用一个简单的星型模式报告。这是一个简单的数据源,可是当你须要将数据从多个数据源整合,事情就变得复杂了。有些工具带你经过一个错综复杂的过程,升级到数据生成星型模式以前结合。这是否是很自动化。数据仓库的自动化工具应该能够处理70%的工做,而不须要额外的数据建模工做或ETL编程。除非客户存在定制化的需求,再进行建模和编程。htm

 

  2、一些工具须要大量的咨询工做实现结果。

  问问你的数据仓库的自动化软件供应商的这个简单的问题: “大家实施BI项目有多少实施顾问,实施须要的周期?”一个健全的实施BI项目的团队,若是已经作到了工具大部分自动化处理。实际具备成熟自动化技术的供应商,他们更多的是在作客户报表指标的梳理,适配公司模型库中的指标数据。更多的工做是在前期的需求调研确认模型阶段,实施部署BI项目实际是很是快速的。

  3、雪花模型和星形模型

  若是您正计划创建本身的数据仓库,那么你所选择的数据仓库自动化工具应该自动执行任何上述的部分或所有。一些数据仓库的自动化工具仍须要您手动设计目标模型,并用本身的工具来填充它。这不是自动化,你还不如回去使用ETL工具。一个好的数据仓库自动化工具将自动完成了模型设计和填充它的代码 。让你在雪花模型和星型模形之间进行选择。

  4、目标数据库的数据仓库。

  许多数据仓库的自动化工具限制你只是一个目标数据库平台,而其余人将让你在更多的建立数据仓库。你可能但愿,在将来,移动到不一样的数据库平台(例如,从S​​QL Server到Oracle,或从S​​QL Server到S​​QL Server其余版本),因此你可能须要一个数据仓库的自动化工具,它为您提供了未来的迁移选项。

  5、调度依赖

  对于任何数据仓库项目,须要数据在特定的时间,并在必定的顺序进行装载。例如,当来自多个来源的数据相结合,你可能须要有全部加载以前,首先你能够开始创建你表中的数据,并且他们必须更新以前,您能够更新您的星型模型的报告。一个企业级的数据仓库的自动化工具将了解这些依赖关系,自动执行并自动完成全部必要的流程和正确的顺序运行它们。

   6、数据仓库自动化工具的功能

 

 

  数据仓库自动化工具主要包括系统管理、业务总线管理、维度模型管理、做业管理、应用管理、元数据管理、数据标准管理和行业指标库等模块。 我的认为真正健全软件应该具有上图的功能特色或者实现维度建模工具箱中说起的34个子系统。

  系统管理:这个模块主要管理各个系统的信息包括源系统信息、数据仓库系统、做业调度系统、报表浏览系统。经过源系统信息能够自动导入源系统的元数据,为维度建模和检查数据结构变化提供数据。

  业务总线管理:每一个源系统都有多个业务过程,每一个业务过程都会涉及多个维度实体。业务过程和维度实体组成总线结构,统一管理每一个源系统的业务总线。

  维度模型管理:根据命名规范进行物理模型和映射关系设计,保证命名的统一。能够自动生成建表脚本,自动在数据仓库执行脚本。

  做业管理:根据查询脚本和程序模板自动生成ETL程序,自动生成做业的依赖关系。保证程序代码的统一,规范。

  应用管理:统一管理报表、接口业务元数据信息。

  数据标准管理:统一管理代码命名规范、数据类型映射关系、经常使用单词库、指标定义、ETL程序模板。

  元数据管理:在开发的过程当中,会存储各类元数据信息,能够根据这些元数据进行代码规范检查、数据影响分析、数据异常监控。

  项目文档管理:能够在BI项目实施时进行自动生成数据处理过程的备注信息,能够详细描述知道字段的转换,抽取规则等等

  行业指标库:经过公司积累的行业数据指标进行适配客户数据,实现低成本敏捷交付BI项目。

  7、总结

  ETL工具引入了不少时间的延误和风险到您的商业智能项目。更糟的是,他们期待您的业务用户可以学习掌握数据仓库中的表和字段,真正业务用户时不理解数据仓库的,因此不可避免的变化将要花费很长的时间来解决。真正可让业务用户理解的只有业务术语,利用语义模型才是解决该类问题的最好方法。你能用敏捷的ETL工具,来完成模型的设计。若是您估计传统的数据仓库项目,须要半年,一样的项目在具备良好和高度配置化的数据仓库自动化工具来完成只须要几个星期处理好。时间对于任何公司和个体都是十分重要的,因此选型数据仓库工具也是须要很是谨慎当心。

相关文章
相关标签/搜索