在业务发展过程当中,会产生大量的数据,单看数据是没有价值的,只有和业务相结合转化为信息,再通过处理才能体现其价值。数据库
对于业务数据而言,一般分为两项:其一是维度,其二是度量,或者说是指标,这两项构成了咱们数据分析的基础。markdown
对于结构化数据,咱们能够理解为一个多维立方体(cube),里面存在着维度和度量。架构
固然,不只仅是三维,还能够有多个维度。工具
这里拿三维立方体模型进行举例:网站
想象你操做数据透视表的模式,能够经过钻取、切片、切块、上卷、旋转等多种方式来对这个cube进行多维度观察,记录对比多个度量值,从而获取到数据所描绘的业务现状,继而经过对比产生对业务发展的洞察,从而制定出相应的决策。ui
然而在实际的业务运营中,单纯从几个维度并不能完整的了解业务发展的状态,咱们须要从更深的层次去观察业务,更须要在业务指标出现问题时快速定位缘由,这就须要经过构建合适的指标体系来实现。spa
a) 缺指标 b) 缺维度 c) 口径不一样义设计
结果是:报表臃肿,产品反复迭代,频繁验证数据日志
a) 修改原有表结构,如增长存储列 b) 修改SQL计算逻辑 c) 数据回算 d) 从新展现数据结果excel
经过指标体系监测业务发展的情况,最大的价值就是高效利用时间,把时间花在解决问题上,而不是寻找问题上,从而提升总体的人效。
指标体系的输出结果应当是一份指标字典和对应的Dashboard展现,须要至少知足如下要求:
参考 :OSM模型(Obejective,Strategy,Measurement)分别表明业务目标、业务策略、业务度量。
目标(obejective):保费达到预期值100亿
策略(Strategy):增长保费主页面入口等等
度量(Measurement):各粒度下的保费UV,PV人数统计
还有PLC,三级指标,AARRR,HEART,PULSE模型等等
基于横向的数据指标,再对数据指标进行层级划分,划分指标层级可以帮助公司搭建一套完整的数据监控指标体系,从而及时发现业绩的升高或下降,以及产生的缘由,节省花在寻找问题上的时间。
指标分级主要是将指标化解为不一样层级并逐级分析。根据企业战略、企业组织及业务进行自上而下的分级,对指标进行层层剖析,能够帮助咱们更高效的去定位问题,去验证你的方法论,无需每次都要思考要去看哪些指标。
a) 公司战略层面指标,公司承认、衡量业绩的核心指标 b) 衡量公司总体目标完成状况,与公司当前业务紧密结合,并对全部员工均有核心的指导意义 c) 通常为结果性指标
一级指标一般根据市场、产品生命周期、产品品类和商业模式肯定,一个时间点只有一个最关键的指标(OMTM,One Metric That Matters)。
好比:公司的保费额,保费产品的活跃度
a) 业务策略层面指标,二级指标是一级指标的路径指标
为达成战略目标,公司会对其进一步拆解为业务线或事业群的核心指标。一般为了实现一级指标,企业会作 出相应的策略,二级指标也会与这些策略有所关联。
一级指标发生变化的时候,经过查看二级指标,可以快速定位问题的缘由所在。
好比uv、转化率、客户单价,经过这三个指标能够快速定位销售额下降的缘由。
能够理解为一级指标的分解 例如:公司要增长保费目标,新增了一些活动,加大了广告投入等措施
b) 业务执行层面指标,三级指标对二级指标的路径的拆解,便是二级指标的过程性指标
三级指标是将二级指标纵向展开,进行路径拆解、漏斗拆解、公式拆解。
三级指标一般用于定位二级指标的问题,一般指导一线运营或分析人员开展工做。
三级指标是业务中最多的指标。
能够高效定位二级指标波动的缘由,并能够快速作出相应的动做
能够理解为某个销售小组或者某我的的业绩完成状况
一般咱们讲述的指标是对当前业务有参考价值的统计数据,换句话说,不是全部的数据都叫指标。指标的核心意义是它使得业务目标可描述、可度量、可拆解。经常使用的指标有PV、UV等。
在构建指标体系的过程当中,首要动做就是明确指标的分类以及约束指标命名方式,使各个指标可以作到见名知意、减小沟通成本
指标可分为原子指标和派生指标。
原子指标是基于某一业务事件行为下的度量,是业务定义中不可再拆分的指标,是具备明确业务含义的名词 ,体现明确的业务统计口径和计算逻辑。
按照个人理解,原子指标就是不加任何修饰词的指标,又叫度量,例如订单量、用户量、支付金额等
衍生/派生指标就是在原子指标上进行加减乘除或者修饰词的限定等等。
派生指标是对原子指标业务统计范围的圈定,例如:昨日境外输入病例、网站近一周的访问量等。
衍生指标是基于原子指标组合构建的,例如:客单价 = 支付金额 / 买家数。
原子指标=业务过程+度量
派生指标=时间周期+修饰词+原子指标,派生指标能够理解为对原子指标业务统计范围的圈定。
原子指标
通常放在dwd层 能与ods层(业务数据库)指标一一对应 粒度与业务数据库粒度应该一致
衍生指标
通常放在dm层 等价于= (一个或多个原子指标 | 一个或多个其余衍生指标) + (修饰词) + (时间)
业务板块:比数据域更高维度的业务划分方法,适用于特别庞大的业务系统。
业务过程:指企业的业务活动事件,以下单、支付、退款都是业务过程,请注意,业务过程是一个不可拆分的行为事件,通俗的讲,业务过程就是企业活动中的事件。
修饰类型:是对修饰词的一种抽象划分。修饰类型从属于某个业务域,如日志域的访问终端类型涵盖无线端、PC端等修饰词。
修饰词:指出了统计维度之外指标的业务场景限定抽象,修饰词隶属于一种修饰类型,若是在日志域的访问终端类型下,有修饰词PC端、无线端等。
时间周期:用来明确数据统计的时间范围或者时间点,如最近30天、天然周、截至当日等。
度量/原子指标:原子指标和度量含义相同,基于某一业务事件行为下的度量,是业务定义中不可再拆分的指标,具备明确业务含义的名词,一般是业务过程+度量组合而成,如支付金额。
维度:维度是度量的环境,用来反映业务的一类属性,这类属性的集合构成一个维度,也能够成为实体对象。维度属于一个数据域,如地理纬度、时间维度。例如, 在分析交易过程时,能够经过买家、卖家、商品和时间等维度描述交易发生的环境。
衍生指标:衍生指标=一个原子指标+多个修饰词(可选)+时间周期。能够理解为对原子指标业务统计范围的圈定。如原子指标:支付金额,最近一天海外买家支付金额则为派生指标(最近1天为时间周期,海外为修饰词,买家做为维度,而不做为修饰词)
指标体系是从不一样维度梳理业务,并将零散单点的具备相互联系的指标,系统化地组织起来。其中,维度分为定性维度和定量维度,定性维度主要是文字描述类,例如姓名、地名等;定量维度主要是数值描述类,如工资、年龄等。
数据指标能够分为可加、不可加、半可加的 **可加:**例如保费是可加的 **不可加:**比率 **半可加:**累计保费,在时间维度不可加
不可加能够放在报表层处理
数据仓库是面向主题(数据综合、归类并进行分析利用的抽象)的应用。数据仓库模型设计除横向的分层外,一般也须要根据业务状况进行纵向划分数据域。数据域是联系较为紧密的数据主题的集合,是业务对象高度归纳的概念层次归类,目的是便于数据的管理和应用。
数据域是指面向业务分析,将业务过程或者维度进行抽象的集合。为保障整个体系的生命力,数据域须要抽象提炼,并长期维护更新。在划分数据域时,既能涵盖当前全部的业务需求,又能让新业务在进入时能够被包含进已有的数据域或扩展新的数据域。数据域的划分工做能够在业务调研以后进行,须要分析各个业务模块中有哪些业务活动。
数据域能够按照用户企业的部门划分,也能够按照业务过程或者业务板块中的功能模块进行划分。
**业务线 :**用户 车险 健康险 公众号 日志
点击 浏览 曝光 等等
询价 投保 核保 承保 理赔 等等
随车 等等(一般能够理解为交叉数据域)
**数据总线:**一致维度(dwd层已开发) **汇总层:**能够是面向部门的,也能够是面向业务的
明确每一个数据域下有哪些业务过程后,便可构建总线矩阵。
同时须要明确业务过程与哪些维度相关,并定义每一个数据域下的业务过程和维度。
构建总线矩阵的重点在于:
基于以上两点,宏观上构建业务主题与数据域之间的关系,微观上构建业务主题中的业务过程与维度之间的关系。
宏观矩阵是业务主题和数据主题的关系,因为社区数仓仅涉及社区业务主题,故这里仅放置社区涉及到的业务过程。
微观矩阵是数据主题和维度的关系。
在构建微观业务矩阵的时候,须要结合对业务过程的分析定义维度,根据业务的不一样形态须要从不一样的维度进行分析,这个维度的定义须要结合业务场景与分析指标,最终定义以下:
基于以上获得的总线矩阵,咱们能够进行以下模型的设计:
1)**明细模型设计:**设计一致性维表DIM和一致性事实表DWD
2)**汇总模型设计:**设计公用汇总层DWS和应用汇总层ADS
这一步须要依据以前使用OSM模型和指标分层构建的指标体系,对数据进行计算,标准化命名,而后将涉及到的指标计算出来。
例如,经过访问事实表计算社区的用户数、社区各子板块的用户数,并拆分平台、版本和用户类型。
数仓分层的目的在于咱们但愿数据的流转可以更加有序可控,减小重复开发,统一数据口径,且可以及时有效的响应多样的数据需求,参照以下结构,将数据进行组织:
DWD层:明细事实层
DWS层:主题汇总层,这一步能够拆分两层:
按照如下层级调用标准进行分层计算:
BI工具,主要有可视化展现和多维展现。须要考虑公司的组织架构,BI工具能力以及用户使用体验等综合考虑。
主流的BI工具有国外的tableau、powerbi;国内表明的BI产品有网易有数、阿里的QuickBI、smartBI。不过以上的BI平台是收费,而且可定制化并无那么强。
开源的BI工具国外的有superset、redash、metabase,国内的主要有CBoard和Davinci
展现层须要知足如下功能:
此外,将全部数据展现在同一张DashBoard上确定会是不现实的,因此须要按照分析主题将DashBoard规划为如下层级:
数据在通过ETL以后就计算出了咱们须要的指标,可是在数据的计算过程当中,咱们会遇到不少计算口径的问题,须要咱们和运营、技术、产品一块儿屡次明确口径。
好比用户屡次浏览页面算不算次数等相似问题。。。
在最后阶段,咱们要将计算过程当中每个指标的计算口径,异常值的处理等等输出一份指标字典,以便咱们和运营之间进行沟通。
指标字典的输出必须明确的三个要素是:指标名称、指标描述、计算方式
公司能够开发数据指标系统,没条件用EXCEL进行展现