一,数据仓库,BI涉及到的相关概念
1.DW:
即数据仓库(Data Warehouse),是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化的(Time Variant)数据集合,用于支持管理决策。
数据仓库系统是一个信息提供平台,他从业务处理系统得到数据,主要以星型模型(能够作钻取用,常常用到)和雪花模型进行数据组织,并为用户提供各类手段从数据中获取信息和知识。 2.DSS:
决策支持系统(decision support system ,简称dss)是辅助决策者经过数据、模型和知识,以人机交互方式进行半结构化或非结构化决策的计算机应用系统。它是管理信息系统(mis)向更高一级发展而产生的先进信息管理系统。它为决策者提供分析问题、创建模型、模拟决策过程和方案的环境,调用各类信息资源和分析工具,帮助决策者提升决策水平和质量。 3. 数据字典(Data dictionary):
是一种用户能够访问的记录数据库和应用程序源数据的目录。数据字典是数据库的重要组成部分。它存放着数据库全部的相关信息,对用户来讲可能只是一组只读的表。可是对于咱们来讲,数据字典越完善,越详细就越有助于咱们流程开发的进行,深刻的业务挖掘。 数据字典内容包括:
(1)数据库中全部模式对象的信息,如表,试图,索引及各表关联关系 (2)分配多少空间,当前使用了多少空间等。 (3)列的缺省值
(4)约束信息的完整性
(5)用户的名字,用户及角色被授予的权限。用户访问或使用的审计信息 (6)其余产生的数据库信息
4.元数据:
元数据(Meta Data)是关于数据仓库的数据,指在数据仓库建设过程当中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息,全部这些信息都应当妥善保存,并很好地管理。为数据仓库的发展和使用提供方便。
元数据是一种二进制信息,用以对存储在公共语言运行库可移植可执行文件 (PE) 文件或存储在内存中的程序进行描述。将您的代码编译为 PE 文件时,便会将元数据插入到该文件的一部分中,而将代码转换为 Microsoft 中间语言 (MSIL) 并将其插入到该文件的另外一部分中。在模块或程序集中定义和引用的每一个类型和成员都将在元数据中进行说明。当执行代码时,运行库将元数据加载到内存中,并引用它来发现有关代码的类、成员、继承等信息。
5.OLAP:
当今的数据处理大体能够分红两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。OLTP是传统的关系型数据库的主要应用,主要是基本的、平常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支持复杂的分析操做,侧重决策支持,而且提供直观易懂的查询结果。web
OLAP委员会对联机分析处理的定义为:使分析人员、管理人员或执行人员可以从多种角度对从原始数据中转化出来的、可以真正为用户所理解的、并真实反映企 业维特性的信息进行快速、一致、交互地存取,从而得到对数据的更深刻了解的一类软件技术。OLAP的目标是知足决策支持或多维环境特定的查询和报表需求, 它的技术核心是“维”这个概念,所以OLAP也能够说是多维数据分析工具的集合。 6.EPM(企业绩效管理):
基于CKM体系,联结战略与执行力的桥梁,核心致力于企业绩效,软件与咨询的结合.
从KPI出发,以人和职能为中心,视计划和任务为工做单元,经过管理调度实现有效执(跟踪、分析、反馈、沟通和调整),将及时的业绩奖罚做为杠杆,最后,以管理运行软件固化系统。
KPI(Key performance indicator)意为关键业绩指标,是企业将战略规划中的目标通过层层分解,最后落实到以部门和我的具体行为为主体的战术目标的一种企业绩效管理方式。 7.ROLAP:
关系型联机分析处理(ROLAP)是联机分析处理(OLAP)的一种形式,它对存储在关系数据库(而非多维数据库)中的数据做动态多维分析。
由于ROLAP使用的是关系数据库,因此它须要更多的处理时间和/或磁盘空间来执行一些专为多维数据库设计的任务。尽管如此,ROLAP支持更大的用户群组和数据量,经常用于对这些容量要求很高的场合,例如某公司一个大而复杂的部门。
8.维度:Dimension,简单理解为分析数据的角度,一般是数据表中的一些字符型字段名称. 指标:Fact 9.ETL:
ETL,Extraction-Transformation-Loading的缩写,中文名称为数据抽取、转换和加载。 ETL工具备OWB(Oracle Warehouse Builder)、ODI(Oracle Data Integrator)、Informatic PowerCenter、AICloudETL、DataStage、Repository Explorer、Beeload、Kettle、DataSpider。
10.即席查询(Ad Hoc)是用户根据本身的需求,灵活的选择查询条件,系统可以根据用户的选择生成相应的统计报表。即席查询与普通应用查询最大的不一样是普通的应用查询是定制开发的,而即席查询是由用户自定义查询条件的。 11. PowerDesigner:
是Sybase公司的CASE工具集,使用它能够方便地对管理信息系统进行分析设计,它几乎包括了数据库模型设计的全过程。利用PowerDesigner能够制做数据流程图、概念数据模型、物理数据模型,能够生成多种客户端开发工具的应用程序,还可为数据仓库制做结构模型,也能对团队设备模型进行控制。 12. 钻取:
钻取是改变维的层次,变换分析的粒度。它包括向上钻取和向下钻取。经过向导的方式,用户能够定义分析因素的汇总行,例如对于各地区各年度的销售状况,能够生成地区与年度的合计行,也能够生成地区或者年度的合计行。它包括向上钻取和向下钻取。也能够说是从大范围到小范围或者小范围到大范围。
二, BIEE开发流程
BIEE开发的大致流程:需求调研与确认----搭建数据仓库模型----ETL开发----BIEE后台RPD模型创建----前台报表实现----数据验证----试运行
1, 需求调研与确认数据库
此步骤需与客户充分的沟通,熟悉全部报表及业务数据结构和功能,最好作到每一个细节都能获得客户的确认以此来知足客户的需求,更好地积累并完善数据字典,对客户所需求的主题和比较关注的维度和度量有个概念,为此后的流程作好充足的准备。
再结合数据库字典,根据用户需求和调研结果,确认主题,分出类别,明确维度和度量。分析数据库数据,与客户技术人员确认维度和度量所需数据库字段在是否存在。经过字段用SQL能够查询它们的关联关系(确认哪些表示主表,再经过主表能够确认哪些表是副表),最终整理出咱们本身的数据字典,便于日后本身编写SQL视图,为抽取数据作准备.
2, 搭建数据仓库模型*
通常从临时表中抽出,此时的临时表是数据仓库中的数据关系表,主要以星型模型,雪花模型两种形式呈现,雪花模型不能作钻取,因此通常采用星型模型。
3, ETL开发
ETL抽取数据主要采用的Informatica ETL工具
1,抽取临时表FS_XX, 从业务系统往临时表里抽数据,而后进行数据清洗 2,抽取维表D_XX(Dimension table),此时会涉及到缓慢变化维,当新数据往历史数据里插入时,就会在原有的序列ID上自增加插入数据,这样优势在于不会打乱各个表和数据间的关系。
3,抽取正式表F_XX(Fact table)利用临时表做为驱动表和维度表进行匹配,此时会有屡次匹配,匹配后还会进行部分业务处理,最终呈现出事实表,此时不存在临时表,只有事实表和纬度表及其它们的关系。
4, BIEE后台RPD模型创建
RPD 模型创建包括:创建物理模型、业务逻辑模型和展示模型。在物理层建立主外键,用一对多的关系来显示数据的完整性。钻探维度,初始化块的创建,能够根据不一样维度的钻取来调出数据。
5, 前台报表实现
前台展现会根据客户提出的不一样要求,来肯定报表的具体呈现形式,诸如 柱形图:用于显现一段时间内的数据变化或各项间的比拟情况
饼图:能够明显知道你所作统计的事物的比例
线形图:简单易懂,明显的知道所统计内容的行走趋势
6, 数据验证
咱们已经按照报表模型完成了开发,可是BI的最主要特色是数据的准确性。接下来的工做即是进行数据验证。若是说报表展示的数据与数据库中的数据相同就已经完成了,那就大错特错了,只有与客户实际的业务数据一致才是正确的。
7, 试运行
当确保业务知足和开发的完整正确的前提下,就能够运行了。
三, 其余知识要点概括 浏览器
1. BI
启动成功后,在浏览器地址栏输入:主机名:9704/nalaytics 能够进入
BI设计界面,能够进行报表等开发.(主机名:7001/nalaytics 是简单安装后进入BI设计界面须要输入的URL,上述填写9704,意味着是企业安装)。
2. 在浏览器地址栏输入:主机名:7001/em 进入BIServer控制台界面。 3. 在浏览器地址栏输入:主机名:7001/console 进入weblogic控制台界面。数据结构