今天千锋扣丁学堂大数据培训老师给你们分享一篇关于数据分析必不可少之数据仓库的详细介绍,首先数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(DecisionSupport)。数据仓库自己并不“生产”任何数据,同时自身也不须要“消费”任何的数据,数据来源于外部,而且开放给外部应用,这也是为何叫“仓库”,而不叫“工厂”的缘由。数据库
一、数据仓库的特色微信
面向主题的,按照必定的主题进行组织,主题是指用户使用数据仓库进行决策时所关心的重点方面,后面会重点举例说明。架构
数据仓库是集成的,数据仓库的数据有来自于分散的操做型数据,将所需数据从原来的数据中抽取出来,进行加工和集成以后,进入数据仓库。工具
数据仓库是不可更新的,数据仓库主要是为决策分析供数据,所涉及的操做主要是数据的查询;性能
二、数据仓库有以下要求学习
效率足够高:数据仓库的分析数据通常分为日、周、月、季、年等,能够看出,日为周期的数据要求的效率最高。大数据
数据质量:因为数据仓库流程一般分为多个步骤,包括数据清洗,转换,装载等,那么因为脏数据会致使数据失真,就可能致使作出错误的决策。网站
可扩展性:主要体如今数据建模的合理性。设计
数据仓库的基本架构主要包含的是数据流入流出的过程,能够分为三层——数据获取、数据仓库、数据应用:日志
数据仓库的结构
数据仓库从各数据源获取数据及在数据仓库内的数据转换和流动均可以认为是ETL(抽取Extra,转化Transfer,装载Load)的过程。ETL是数据仓库的流水线,也能够认为是数据仓库的血液,它维系着数据仓库中数据的新陈代谢,而数据仓库平常的管理和维护工做的大部分精力就是保持ETL的正常和稳定。
三、数据仓库
1.数据获取
对于网站数据仓库而言,点击流日志是一块主要的数据来源,它是网站分析的基础数据;固然网站的数据库数据也并不可少,其记录这网站运营的数据及各类用户操做的结果,其余是网站内外部可能其它各种对于公司决策有用的数据。
2.数据仓库
2.1数据模型:
数据模型是抽象描述现实世界的一种工具和方法,是经过抽象的实体及实体之间联系的形式,来表示现实世界中事务的相互关系的一种映射。在这里,数据模型表现的抽象的是实体和实体之间的关系,经过对实体和实体之间关系的定义和描述,来表达实际的业务中具体的业务关系。
数据仓库模型是数据模型中针对特定的数据仓库应用系统的一种特定的数据模型
数据模型的层次划分
经过上图,咱们可以很容易的看出在整个数据仓库的建模过程当中,咱们须要经历通常四个过程:
业务建模:生成业务模型,主要解决业务层面的分解和程序化。
领域建模:生成领域模型,主要是对业务模型进行抽象处理,生成领域概念模型。
逻辑建模:生成逻辑模型,主要是将领域模型的概念实体以及实体之间的关系进行数据库层次的逻辑化。
物理建模:生成物理模型,主要解决,逻辑模型针对不一样关系型数据库的物理化以及性能等一些具体的技术问题。
所以,在整个数据仓库的模型的设计和架构中,既涉及到业务知识,也涉及到了具体的技术,咱们既须要了解丰富的行业经验,同时,也须要必定的信息技术来帮助咱们实现咱们的数据模型,最重要的是,咱们还须要一个很是适用的方法论,来指导咱们本身针对咱们的业务进行抽象,处理,生成各个阶段的模型。
2.2数据主题:
数据主题
数据模型的建设,维度的选择,是为了知足数据主题的需求。数据主题一般就是业务需求的提炼。
2.3数据报表:
报表几乎是每一个数据仓库的必不可少的一类数据应用,将聚合数据和多维分析数据展现到报表,提供了最为简单和直观的数据。
这里的数据汇总指的是基于特定需求的简单汇总(基于多维数据的聚合体如今多维数据模型中),简单汇总能够是网站的总Pageviews、Visits、UniqueVisitors等汇总数据,也能够是Avg.timeonpage、Avg.timeonsite等平均数据,这些数据能够直接地展现于报表上。
数据报表示例
2.4数据集市和开放API
数据集市(DataMart),也叫数据市场,能够理解为字段很是多的宽表,好比销售表,除了包含订单和金额等必需的字段,还包含可能使用的产品信息集合、用户信息集合、甚至销售人员的信息,是数据仓库的核心组成部分。
提高数据准确性:由于创建面向主题的数据表以后,不用再根据需求的不一样,创建不一样的结果表,天然发生错误的概率会大大下降
提高效率:因为是面向主题的,因此须要的任何数据均可以从数据集市表直接简单获取。
开放API,指对外开放的查询等接口。
数据质量中心:
元数据管理
元数据(MetaDate),其实应该叫作解释性数据,或者数据字典,即数据的数据。主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态。通常会经过元数据资料库(MetadataRepository)来统一地存储和管理元数据,其主要目的是使数据仓库的设计、部署、操做和管理能达成协同和一致。
以上就是关于千锋扣丁学堂大数据培训之数据分析必不可少之数据仓库的所有内容,想要了解更多关于大数据开发方面内容的小伙伴,请关注扣丁学堂大数据培训官网、微信等平台,扣丁学堂IT职业在线学习教育有专业的大数据讲师为您指导,此外扣丁学堂老师精心推出的大数据视频教程定能让你快速掌握大数据从入门到精通开发实战技能。