最近在博客园上看到一篇文章,关于数据仓库建设相关的。之前作项目一直经过PowerQuery进行数据加工处理,再使用PowerBI Desktop进行数据分析展示,没有单独构建数据仓库的概念。经过这个文章找到中软易通官网,了解一些免费的ETL工具介绍和视频后发现原来经过ETL工具创建数据仓库确实能够比较简单。(注意:这里的简单是相对的,主要仍是咱们须要有数据仓库相关的知识尤为是数据仓库维度建模,后期我会专门针对维度建模写一个维度建模系列的文章。)架构
图中咱们能够看到有数据仓库和没有数据仓库的区别。在进行数据分析的时候,咱们总会遇到一些名词,好比数据仓库。数据仓库是数据分析中一个比较重要的东西,数据仓库是一个面向主题的、集成的、相对稳定的、反应历史变化的数据集合。下面就给你们解释一下数据分析中的数据仓库。工具
对数据分析的理解你们应该都是比较熟悉的,数据分析的流程有不少,首先须要进行对业务的理解,而后就是对数据的理解,挖掘数据,数据处理,数据分析,数据展示,这些步骤就可以给你们带来一个不错的数据分析结果。学习
可是数据分析中的工做最重要的就是数据处理工做,因为数据分析对数据质量、格式的要求比较高,对数据的理解也必须很是深入,使得数据契合业务需求也要必定的过程,根据我作数据分析的经验,在整个数据分析流程中,用于数据处理的时间每每要占据70%以上。因此,如何高效、快速地进行数据理解和处理,每每决定了数据分析项目的进度和质量。而数据仓库具备集成、稳定、高质量等特色,基于数据仓库为数据分析提供数据,每每可以更加保证数据质量和数据完整性。spa
咱们若是要作好数据分析的时候,要使用ETL工具构建数据仓库提高数据分析效果须要从三个方面。分别是数据理解、数据质量、数据跨系统关联。3d
咱们都知道,数据仓库是面向主题的,因此其自身与业务结合就相对紧密和完善,更方便数据分析师基于数据理解业务。而数据仓库是有不少的主题组成,包括了不少的数据。当咱们须要对数据进行分析的时候,若是理解数据仓库的模型,数据理解也就水到渠成了。视频
咱们在作数据分析的时候要求数据是干净、完整的,而数据仓库已经对源系统的数据进行了业务契合的转换,以及脏数据的清洗,这就为数据分析的数据质量作了较好的保障。blog
数据跨系统关联数据仓库的一个简单架构,各业务源系统的数据通过ETL过程后流入数据仓库,当不一样系统数据整合到数据仓库以后,至少解决了数据分析中的两个问题:get
第一,跨系统数据收集问题,在金融分析中同一个客户的储蓄交易和理财交易咱们在同一张事实表就能够找到;博客
第二,跨系统关联问题,进行数据整合时,老是须要找到共同点来关联来自不一样系统的信息,而数据仓库在ETL过程当中就会整合相关客户信息,完美解决跨系统关联问题。数据分析
经过上面的内容咱们不难发现数据仓库确实可以给你们带来不少的帮助,你们在学习数据分析之余须要对数据分析中的数据仓库进行了解,这样才可以更好地去进行数据分析工做。但愿这篇文章可以给你们带来帮助,最后感谢你们的阅读。
欢迎你们一块儿加入高效数据处理ETL交流群,一块儿讨论数据分析前ETL过程的问题,一块儿学习一块儿成长。
扫码加群: