互联网天天都会产生大量的数据,互联网里的数据就是指咱们在使用互联网产品时发生的行为所沉淀下来的结果。例如,咱们在电商网站上浏览商品进行购物时会产生商品浏览记录的数据,当咱们完成商品购买时会产生购买记录数据。咱们在使用微信进行沟通和发布朋友圈时也会产生大量的数据,这些数据会被记录下来而且存储在数据库中。这些数据能够被用来进行分析,例如根据用户浏览商品的记录数据动态的给用户推荐相关的产品,还可使用大量的数据分析和预测用户行为,这个过程咱们称之为大数据。大数据的基础是数据自己,也就是说,必须先积累足够大的数据样本,而后基于这些样本进行具体的分析,从而产生有价值的数据分析结果。数据库
近年来发展迅猛的出行类产品滴滴出行,从出租车发展到专车和快车,在解决人们高效出行的同时,也在调控者整个城市的交通网络。每一位乘客打车的订单数据都反映了乘客的出行轨迹,经过某一地区的订单密度数据能够反映这个地方的用车需求。滴滴能够利用这些数据进行平台上司机运力的调控。为此,滴滴向司机端推出了运力热点图,经过颜色区分不一样区域的用车需求量的大小,需求量大的地方,在运力热点图上显示的颜色就越深,司机经过运力热点图选择前往用车需求量大的地方就能够更快的接到用车订单,从而增长本身的收入。微信
数据是互联网时代最重要的资产,尤为是对于互联网公司。阿里巴巴拥有大量中小商家的数据和数以亿计的商品数据,能够用这些数据产生巨大的价值。若是没有这些数据,就只是一个系统数据。腾讯具有大量的用户关系数据,这种用户关系数据在线上构建了一个社交生态系统,使得微信这样的产品能在极短期内呈现爆发的姿式,实际上这就是用户社交关系数据产生出的价值。利用社交关系数据能够产生不少衍生场景和价值,例如基于微信群关系的微信红包,利用社交关系产生的微信运动比拼等。网络
用户经过使用产品天天都会产生大量的数据,若是是内容型产品,产生的就是内容数据,例如文字、视频或者音频。若是是交易平台型产品,产生的就是用户行为数据和交易数据。根据不一样的数据类型,能够进行大样本的数据分析,数据分析结果能够转化为商业决策的依据,从而反向产生更大的商业价值。能够说,在互联网时代,数据是惟一也是最重要的资产。数据结构
咱们天天使用互联网产品会产生大量的数据,这些数据记录了咱们在互联网上经过产品发生的一切行为,这些大样本的数据自己也会反映出一些规律,经过对这些海量数据的分析,咱们能够得出不少结论,经过这些结论能够指导商业决策和产品设计的调整。大体来讲,在互联网上产生的数据主要分结构化数据和非结构化数据两类。简单的说,结构化数据就是按照固定的格式和结构存储的数据,比如咱们按照格子一个个存放数据;非结构化数据是对一些零散型数据的集中管理,比如咱们在一个格子里放上不少的零散的东西。测试
这两种数据分类基本囊括了互联网上产生的全部数据,针对这两种数据的分析也均可以挖掘出对应的价值。例如,经过分析结构化数据咱们能够预测数据走势,提早预判风险,经过分析非结构化数据能够进行一些行为分析和相关推荐。接下来,咱们就分别了解结构化数据和非结构化数据,以及数据分析的具体内容。大数据
结构化数据是按照必定的数据规则存储的数据。例如,电商产品里的结构化商品数据,这些商品数据按照严格的商品分类和商品属性进行分类存储,好比手机归属在电子产品分类下,每一个手机又具有颜色和内存规格等基本参数。按照这种结构存储的数据能够被有效地进行分类管理,基于这种结构化的存储形式,咱们能够按照某一维度对数据进行分析和处理。例如,若是咱们要查看,某一款手机的不一样颜色款式的销售排名状况,那么咱们就能够先按手机型号纬度进行检索,把这款手机的所有销售数据查询出来,而后在这个数据集合里再按照颜色款式进行分类查询,这个时候就能够获得这款手机的不一样颜色款式的销售排名状况,基于这种数据分析结果,咱们能够在下次进货的时候,有意的提升高销售的颜色款式数据,下降低销售的颜色款式数量,这样就能更好的优化库存,提高销量。优化
结构化数据存储就比如一个标准的大型图书馆,这个图书馆里的图书就是数据,每一本书是按照固定编号和分类进行存放和管理的。咱们要调取哪一本书,只须要按照固定编号进行查询检索,并且咱们能够对图书馆的数据进行不一样纬度的数据检索分析,例如按照出版年份、出版社、书目类型等。结构化能大大提升数据存储的规范性和分析能力,咱们平时所说的大数据其实很大一部分都是结构化数据,互联网中存储了大量的结构化数据,将现实世界的知识、内容、业务都沉淀在了数据库中。网站
产品经理接触比较多的都是结构化数据,例如咱们在设计产品时定义的数据结构都是结构化数据,这些结构化数据组合在一块儿构成了产品总体。须要注意的是,若是后期须要对产品中的数据进行总体分析,那么在设计阶段就须要根据业务特色对数据结构的定义进行明确分类。举个例子,在医疗产品里面,不少检查报告都是一拍照传图的方式进行数据存储的,这些检查报告里有大量的关键数据能够做为后期患者病历大数据分析的原始素材,可是若是这些数据是以图片的方式存储的,那么就很难对里面的关键数据进行提取和分析,因此比较好的作法是抽取这些关键数据以结构化的方式进行设计,让用户进行关键数据的填写硬以图片为附件。这样作虽然在操做上多了一步,可是数据的价值在后期会被发挥出来,这也是结构化数据带来的好处。spa
另外,如今有不少的扫描软件和一些云笔记软件都可以将图片中的文字提取出来,或者直接在图片中进行文字搜索。还有结构话数据也有弊端,数据结构化的细腻程度取决于人类当前的认知层次。设计
非结构化数据大多数都是一些零散的、没有必定规律的数据。例如用户在电商网站上浏览商品的浏览记录数据,或者一些系统的操做日志等,这些不是按照必定的规则进行结构化存储的数据都叫作非结构化数据。例如图片、视频、音频等数据都是属于非结构化数据。与结构化数据相比,非结构化数据的采集和分析也要更复杂一些,非结构化数据的数据量同时也要大不少。
例如,结构化的商品数据通常都是按照商品的种类和类型分类的,这些数据的数据基本等同于商品的数据,可是用户对商品的浏览数据倒是很是庞大的,能够设想一下,一位用户在商品网站上浏览商品,浏览的顺序是很是多样化的,并且在不一样的商品中浏览查看的内容也是很是不固定的,由此就会产生大量的浏览数据,这些数据都是以非结构化的方式进行存储的。
非结构化存储与结构化存储的区别在于对数据结构的设计。结构化存储相似于图书馆对书目的标准化分类管理,非结构化存储就比如一个杂货仓库,里面的货物随机摆放没有必定的规则。可是若是能利用好这些“杂货”,也能够从里面挖掘出“金子”。当咱们分析用户浏览商品的记录数据时,能够分析出用户行为,例如某个用户的浏览记录一般都是覆盖在经济管理类图书和鞋类商品上的,经过对这些浏览数据的分析,经济管理类的数据个鞋类的商品,以此提升用户对产品内容的关注度和成交量。这就是非结构化数据能带来的实际好处,能基于大量的数据进行决策分析。
另外,须要注意的是,结构化数据是非结构化数据的结构化管理角度上的升级,结构化数据和非结构化数据是能够转化的。
数据指标是指产品在各个方面所记录和统计出来的数据结果,是对过去进行回顾和对将来进行预测的参考标准。一个公司的业绩或者产品的健康程度也能够经过数据指标反映。常见的数据指标例如活跃用户数、周活跃用户数或者月活跃用户数能够反映出在一个时间周期内用户对产品的使用状况,活跃度越高说明产品被用户使用得越多转化率指标是反映一个产品功能的实际效果的数据指标,例如设计并开发了一个产品功能,经过一些指标的监测,能够反映出这项功能在提升产品用户活跃度或音促进业务发展时是否真正起到了做用。数据指标是公司业务和产品健康状况的监测表,基于这些数据指标进行分析,能够得出不少指导性的建议和下一步的调整万案。
接下来,介绍一些经常使用的数据指标,在理解它们的时候主要须要注意的是指标名称、指标的定义、指标的统计方法、指标的意义、指标的应用。
指标名称、指标的定义--
UV(Unique Visitor)是网站独立访问和独立用户的意思,指访问某个网站的独立IP的数量,一般计算的周期是当天的0点到24点。UV能够反映出用户活跃度,也能够反映出在某一个固定周期内用户使用产品的状况。
指标的统计方法--
理论上,UV统计的是独立IP在一个周期内的访问,一台计算机的当前IP地址一般都是固定的,互联网中每一个接入网络的设备都有一个惟一的IP地址,能够经过惟一的IP地址统计访问站点的访问数量。
指标的意义--
经过UV统计,能够得出产品的活跃用户数。经过这个指标能够判断在某一个固定周期内,产品的独立访问用户数,UV指标能够用来分析产品的活跃状况。
指标的应用--
例如产品在作运营活动的时候,能够监测从运营活动开始到活动结束的时间段内产品的UV数,以此做为活动效果的反馈指标,若是UV数高,则说明本次运营活动带来了一些流量,让用户更多地使用到了产品,UV数是反映产品健康指数的一个数据指标之一。
指标名称、指标的定义--
PV(Page View)一般是指页面访问量,和UV不一样的是,PV统计的是用户打开网页的次数。
指标的统计方法--
同一个IP屡次打开也算入其中。
指标的意义--
PV指标能反映产品中某个页面的访问频率。
指标的应用--
好比咱们作一个图片展现入口有两个方案时,若是不肯定哪一个方案更好,就能够把两个方案都放上,而后经过统计目的页的PV数进行判断,PV数高的说明用户喜欢这个方案而且愿意点击进去。
指标名称、指标的定义、指标的统计方法--
DAU(Daily Active User)指平常活跃用户,记录一天内独立用户登陆或者使用产品的次数。
MAU(Monthly Action User)指月活跃用户,记录一个月内独立用户登陆或者使用产品的次数。
指标的意义、指标的应用--
MAU相比DAU是一个更宏观的指标,DAU是偏向于微观的指标。经过日活跃用户和月活跃用户数据指标的统计观察,能够反映出网站或者APP的总体运营状况,对于运营策略的制定和调整有直接的数据指导做用。好比周六周天的日活跃大的话,产品的运营活动最好放在周六日进行。
指标名称、指标的定义--
GMV(Gross Merchandise Volume)全称为商品交易总额,是一种反映平台交易总量的数据指标。
指标的统计方法--
GMV不是指成交总额,而是指发生的商品交易总额,例如用户在淘宝上下订单了可是尚未支付,那么这个商品的的交易额度也会被计算进入GWV,下单后用户能够经过支付宝支付也能够经过银联或者其余方式支付。
指标的意义--
GMV反映了一个交易平台的交易活跃状况,商品在平台上的流转是经过用户的购买行为触发的。用户下订单越多,平台的GWV就越高,平台的交易总额越高。只要是交易类平台都会涉及到GWV,但GWV也不能反映所有,GWV是商品的交易总额,并非成交总额。
指标的应用--
GWV数据指标只能从一个侧面反映平台的交易活跃度,对于交易类平台关键仍是看总成交量。
指标名称、指标的定义--
转化率是统计一个大范围的运营活动或者产品动做转化出有效用户的比例。
指标的统计方法--
首先肯定转化成功的标准的明确的,好比经过地推方式,目的是引导用户关注公众号并完成新用户注册操做。只要这个操做完成就能够明确认定转化成功。注意与留存率相区别。
指标的意义--
转化率越高说明活动的效果越好,投入产出比越高。经过产品引导性的设计和展现也能够提升转化率,尤为是在电商类的产品中,经过设计用户购物路径,引导用户进入某一类商品中去查看,就能提升用户购买该商品的转化率。转化率一般用来衡量投入产出比,低投入、高转化是全部产品和运营追求的目标。
指标的应用--
好比,咱们在线上作一场运营活动,让用户报名参加,有1000个用户打开并查看了该运营活动,最终有100个用户成功报名并参加了活动,那么这次运营活动的转化率就是10%。
指标名称、指标的定义--
留存率是指用户进入产品后,在必定的周期事后留存在产品中的用户数量。
指标的统计方法--
例如,以某一天开始计算,当天加入产品的新用户是100人,一天后这一批人里面有50人继续使用产品,那这一天产品的留存率就是50%,以此类推。
用来统计留存率的经常使用表格以下:
首次使用时间 新增用户 留存率 1天后 2天后 3天后 4天后 5天后 2018-10-23 22 18.2% 22.7% 9.1% 13.6% 18.2% 2018-10-24 8 25% 12.5% 37.5% 25% 2018-10-25 3 0% 66.7% 0% 2018-10-26 1 0% 0% 2018-10-27 5 20%
指标的意义--
留存率能体现产品在用户心目中的可用性,像微信就是一个活跃度和留存率都很是高的产品,由于用户天天都经过微信沟通和社交,因此这款产品对于用户的可用性很是高,用户留存率天然就高。
指标的应用--
从连续5天的产品用户留存状况数据来看,该产品的用户留存率均值在20%左右,也就是说,10个用户中只会有两个用户继续使用产品,这说明产品自己对于用户的吸引力不够,须要想办法经过改进产品功能,以此发掘用户需求来提升产品对用户的可用性。
数据仓库(Data Warehouse)能够简写为DW,是一种对历史数据进行存储和分析的数据系统,一般是为企业根据过往数据进行分析从而制定相关决策而存在。
为了理解数据仓库的存在,首先须要明白的是这里指的数据仓库不是平时咱们开发中所说的数据库。
数据仓库的数据来源一般是历史业务数据,例如历史订单及客户信息等,还包括一些系统的操做日志记录等。这些数据统一汇总存储在企业数据仓库,经过对数据仓库里的综合数据进行有目的的计算和分析,能够得出业务分析报告和历史数据报表等。
数据仓库不一样于数据库,数据库是对实时数据进行存储和事务性处理的系统,对应的操做包括了增删查改,可是在数据仓库中通查只提供查询操做。
数据库是为了捕获数据而设计的,数据仓库是为了分析数据而设计的。二者在数据库的设计上是有区别的,尤为不要理解为数据仓库只是数据库的数据备份。一般在数据仓库中,存储的数据结构要比在业务数据库里冗余一些。另外就像上面介绍的,数据仓库的数据来源是数据库和操做日志数据,通常都是按期的将这些业务数据导入到数据仓库中,所以数据仓库中的数据是存在必定的延迟性质的。
若是公司的产品须要进行数据分析等操做时,须要的是数据仓库的查询权限,而不是业务数据库的访问权限。
数据可视化是指经过不一样的视觉呈现方式,将数字数据经过生动形象的方式呈现出来,使得数据查看者可以以一种更加直观方便的方式查看数据。数据可视化是对数据分析结果的展现,经过数据可视化能给决策者提供更贱直观生动的数据决策支持。
数据可视化的技术没有什么创新的地方,实际上就是使用现用的网页技术对数据进行可视化呈现,呈现的方式能够根据须要进行很是多样化的选择,例如曲线图、饼状图、柱状图等,除了静态的展现方式,还能够对数据进行动态展现,比图人口迁移路线动态图。
数据是最能反映产品和业务结果的指标,产品上线之后每每能收集到不少数据,经过这些数据进行进一步分析和验证,能够得出一些验证结论,基于这些结论反向指导产品的优化和业务的调整,能够不断的优化产品和业务,利用数据驱动产品和业务也是目前不少公司经常使用的方式。
数据驱动产品和业务的调整的前提是数据的采集,数据采集的方法有不少,如今也有不少第三方公司提供数据采集和分析的服务,例如百度指数或者专门针对移动端产品的统计分析服务的友盟,经过在产品中集成这些第三方平台的服务,能够对数据进行有针对性的收集,也能够本身定义须要收集和统计分析哪些数据。
在移动互联网时代,移动端成为主要客户端产品,能够统计用户的活跃地区、手机型号、网络条件等,能够基于这些数据统计指标进一步调整产品开发和业务运营策略。例如,根据活跃地区的排名能够重点对该地区增强业务运营,提升产品业务转化率;对于手机型号数据,能够增强对高频率机型的测试,下降产品故障率。相似的数据指标还有不少,经过这些数据指标驱动产品和业务的优化,是一种指向性更精准、投入产出比更高的作法。在大数据时代,数据是真正有价值的资产,掌握了数据就掌握了将来,数据所能产生的价值远远超出咱们的预期,对如今的不少产品和公司来讲,掌握数据入口并拥有采集数据的能力就拥有话语权,真正利用数据驱动产品和业务也能在将来产生极大的商业价值。
声明:上面的内容大多数摘抄于《产品经理必懂的技术那点事儿》书中的部分章节。好的知识,共享共用,但愿本身的努力能为国家的富强做出一些贡献。