前面一章,介绍了大数据hadoop生态圈中组件Flume、azkaban、sqoop的相关知识,截止目前,大数据离线分析的技术知识基本已经介绍完(固然,各组件还有一些其它的替代方案,须要小伙伴们下来本身去了解,推荐书籍《网站分析实战——如何以数据驱动决策,提高网站价值》)。本章开始,博主将介绍离线技术分析的实际项目例子,以帮助更深的理解前面的相关知识。
1、 网站点击流数据分析项目业务背景
(1.1)、什么是点击流数据
(1.1.1)、WEB访问日志web
即指用户访问网站时的全部访问、浏览、点击行为数据。好比点击了哪个连接,在哪一个网页停留时间最多,采用了哪一个搜索项、整体浏览时间等。而全部这些信息均可被保存在网站日志中。经过分析这些数据,能够获知许多对网站运营相当重要的信息。采集的数据越全面,分析就能越精准。ajax
日志的生成渠道:
1)是网站的web服务器所记录的web访问日志;
2)是经过在页面嵌入自定义的js代码来获取用户的全部访问行为(好比鼠标悬停的位置,点击的页面组件等),而后经过ajax请求到后台记录日志;这种方式所能采集的信息最全面;
3)经过在页面上埋点1像素的图片,将相关页面访问信息请求到后台记录日志;chrome
日志数据内容详述:
在实际操做中,有如下几个方面的数据能够被采集:
1)访客的系统属性特征。好比所采用的操做系统、浏览器、域名和访问速度等。
2)访问特征。包括停留时间、点击的URL等。
3)来源特征。包括网络内容信息类型、内容分类和来访URL等。
4)产品特征。包括所访问的产品编号、产品类别、产品颜色、产品价格、产品利润、产品数量和特价等级等。浏览器
以电商某东为例,其点击日志格式以下:服务器
GET /log.gif?t=item.010001&m=UA-J2011-1&pin=-&uid=1679790178&sid=1679790178|12&v=je=1$sc=24-bit$sr=1600x900$ul=zh-cn$cs=GBK$dt=【云南白药套装】云南白药 牙膏 180g×3 (留兰香型)【行情 报价 价格 评测】-京东$hn=item.jd.com$fl=16.0 r0$os=win$br=chrome$bv=39.0.2171.95$wb=1437269412$xb=1449548587$yb=1456186252$zb=12$cb=4$usc=direct$ucp=-$umd=none$uct=-$ct=1456186505411$lt=0$tad=-$sku=1326523$cid1=1316$cid2=1384$cid3=1405$brand=20583$pinid=-&ref=&rm=1456186505411 HTTP/1.1
(1.1.2)、点击流数据模型cookie
点击流这个概念更注重用户浏览网站的整个流程,网站日志中记录的用户点击就像是图上的“点”,而点击流更像是将这些“点”串起来造成的“线”。也能够把“点”认为是网站的Page,而“线”则是访问网站的Session。因此点击流数据是由网站日志中整理获得的,它能够比网站日志包含更多的信息,从而使基于点击流数据统计获得的结果更加丰富和高效。网络
点击流模型生成:点击流数据在具体操做上是由散点状的点击日志数据梳理所得,从而,点击数据在数据建模时应该存在两张模型表(Pageviews和visits):session
一、用于生成点击流的访问日志表oop
时间戳布局 |
IP地址 |
Cookie |
Session |
请求URL |
Referal |
2012-01-01 12:31:12 |
101.0.0.1 |
User01 |
S001 |
/a/... |
somesite.com |
2012-01-01 12:31:16 |
201.0.0.2 |
User02 |
S002 |
/a/... |
- |
2012-01-01 12:33:06 |
101.0.0.2 |
User03 |
S002 |
/b/... |
baidu.com |
2012-01-01 15:16:39 |
234.0.0.3 |
User01 |
S003 |
/c/... |
google.com |
2012-01-01 15:17:11 |
101.0.0.1 |
User01 |
S004 |
/d/... |
/c/... |
2012-01-01 15:19:23 |
101.0.0.1 |
User01 |
S004 |
/e/... |
/d/.... |
二、页面点击流模型Pageviews表(按session汇集的访问页面信息)
Session |
userid |
时间 |
访问页面URL |
停留时长 |
第几步 |
S001 |
User01 |
2012-01-01 12:31:12 |
/a/.... |
30 |
1 |
S002 |
User02 |
2012-01-01 12:31:16 |
/a/.... |
10 |
1 |
S002 |
User02 |
2012-01-01 12:33:06 |
/b/.... |
110 |
2 |
S002 |
User02 |
2012-01-01 12:35:06 |
/e/.... |
30 |
3 |
三、点击流模型Visits表
Session |
起始时间 |
结束时间 |
进入页面 |
离开页面 |
访问页面数 |
IP |
cookie |
referal |
S001 |
2012-01-01 12:31:12 |
2012-01-01 12:31:12 |
/a/... |
/a/... |
1 |
101.0.0.1 |
User01 |
somesite.com |
S002 |
2012-01-01 12:31:16 |
2012-01-01 12:35:06 |
/a/... |
/e/... |
3 |
201.0.0.2 |
User02 |
- |
S003 |
2012-01-01 12:35:42 |
2012-01-01 12:35:42 |
/c/... |
/c/... |
1 |
234.0.0.3 |
User03 |
baidu.com |
S003 |
2012-01-01 15:16:39 |
2012-01-01 15:19:23 |
/c/... |
/e/... |
3 |
101.0.0.1 |
User01 |
google.com |
这就是点击流模型。当WEB日志转化成点击流数据的时候,不少网站分析度量的计算变得简单了,这就是点击流的“魔力”所在。基于点击流数据咱们能够统计出许多常见的网站分析度量
(1.2)、网站流量数据分析的意义
网站流量统计分析,能够帮助网站管理员、运营人员、推广人员等实时获取网站流量信息,并从流量来源、网站内容、网站访客特性等多方面提供网站分析的数据依据。从而帮助提升网站流量,提高网站用户体验,让访客更多的沉淀下来变成会员或客户,经过更少的投入获取最大化的收入。
以下表:
网站的眼睛 |
网站的神经 |
网站的大脑 |
访问者来自哪里? 访问者在寻找什么? 哪些页面最受欢迎? 访问者从哪里进入?
|
网页布局合理吗? 网站导航清晰吗? 哪些功能存在问题 网站内容有效吗 转化路径靠谱吗? |
如何分解目标? 如何分配广告预算? 如何衡量产品表现? 哪些产品须要优化? 哪些指标须要关注? |
点击流分析的意义可分为两大方面
一、技术上
能够合理修改网站结构及适度分配资源,构建后台服务器群组,好比
1) 辅助改进网络的拓扑设计,提升性能
2) 在有高度相关性的节点之间安排快速有效的访问路径
3) 帮助企业更好地设计网站主页和安排网页内容
二、业务上
1) 帮助企业改善市场营销决策,如把广告放在适当的Web页面上。
2) 优化页面及业务流程设计,提升流量转化率。
3) 帮助企业更好地根据客户的兴趣来安排内容。
4) 帮助企业对客户群进行细分,针对不一样客户制定个性化的促销策略等。
终极目标是:改善网站(电商、社交、电影、小说)的运营,获取更高投资回报率(ROI)
(1.3)、如何进行网站流量分析
流量分析总体来讲是一个内涵很是丰富的体系,其总体过程是一个金字塔结构:
(1.3.1)、流量分析模型举例
一般有如下几大类的分析需求:
1)、网站流量质量分析
流量对于每一个网站来讲都是很重要,但流量并非越多越好,应该更加看重流量的质量,换句话来讲就是流量能够为咱们带来多少收入。
2)、网站流量多维度细分
细分是指经过不一样维度对指标进行分割,查看同一个指标在不一样维度下的表现,进而找出有问题的那部分指标,对这部分指标进行优化。
3)、网站内容及导航分析
对于全部网站来讲,页面均可以被划分为三个类别:导航页、功能页、内容页
首页和列表页都是典型的导航页;
站内搜索页面、注册表单页面和购物车页面都是典型的功能页;
而产品详情页、新闻和文章页都是典型的内容页。
好比从内容导航分析中,如下两类行为就是网站运营者不但愿看到的行为:
第一个问题:访问者从导航页进入,在尚未看到内容页面以前就从导航页离开网站,须要分析导航页形成访问者中途离开的缘由。
第二个问题:访问者从导航页进入内容页后,又返回到导航页,说明须要分析内容页的最初设计,并考虑中内容页提供交叉的信息推荐
4)、网站转化及漏斗分析
所谓转化,即网站业务流程中的一个封闭渠道,引导用户按照流程最终实现业务目标(好比商品成交);而漏斗模型则是指进入渠道的用户在各环节递进过程当中逐渐流失的形象描述;
对于转化渠道,主要进行两部分的分析:
访问者的流失和迷失
一、阻力和流失
形成流失的缘由不少,如:
不恰当的商品或活动推荐
对支付环节中专业名词的解释、帮助信息等内容不当
二、迷失
形成迷失的主要缘由是转化流量设计不合理,访问者在特定阶段得不到须要的信息,而且不能根据现有的信息做出决策
总之,网站流量分析是一门内容很是丰富的学科,本课程中主要关注网站分析过程当中的技术运用,更多关于网站流量分析的业务知识可学习推荐资料。
(1.3.2)、流量分析常见指标
课程中涉及的分析指标主要位于如下几大方面
1)、基础分析(PV,IP,UV)
趋势分析:根据选定的时段,提供网站流量数据,经过流量趋势变化形态,为您分析网站访客的访问规律、网站发展情况提供参考。
对比分析:根据选定的两个对比时段,提供网站流量在时间上的纵向对比报表,帮您发现网站发展情况、发展规律、流量变化率等。
当前在线:提供当前时刻站点上的访客量,以及最近15分钟流量、来源、受访、访客变化状况等,方便用户及时了解当前网站流量情况。
访问明细:提供最近7日的访客访问记录,可按每一个PV或每次访问行为(访客的每次会话)显示,并可按照来源、搜索词等条件进行筛选。 经过访问明细,用户能够详细了解网站流量的累计过程,从而为用户快速找出流量变更缘由提供最原始、最准确的依据。
2)、来源分析
来源分类:提供不一样来源形式(直接输入、搜索引擎、其余外部连接、站内来源)、不一样来源项引入流量的比例状况。经过精确的量化数据,帮助用户分析什么类型的来路产生的流量多、效果好,进而合理优化推广方案。
搜索引擎:提供各搜索引擎以及搜索引擎子产品引入流量的比例状况。从搜索引擎引入流量的的角度,帮助用户了解网站的SEO、SEM效果,从而为制定下一步SEO、SEM计划提供依据。
搜索词:提供访客经过搜索引擎进入网站所使用的搜索词,以及各搜索词引入流量的特征和分布。帮助用户了解各搜索词引入流量的质量,进而了解访客的兴趣关注点、网站与访客兴趣点的匹配度,为优化SEO方案及SEM提词方案提供详细依据。
最近7日的访客搜索记录,可按每一个PV或每次访问行为(访客的每次会话)显示,并可按照访客类型、地区等条件进行筛选。为您搜索引擎优化提供最详细的原始数据。
来路域名:提供具体来路域名引入流量的分布状况,并可按“社会化媒体”、“搜索引擎”、“邮箱”等网站类型对来源域名进行分类。 帮助用户了解哪类推广渠道产生的流量多、效果好,进而合理优化网站推广方案。
来路页面:提供具体来路页面引入流量的分布状况。 尤为对于经过流量置换、包广告位等方式从其余网站引入流量的用户,该功能能够方便、清晰地展示广告引入的流量及效果,为优化推广方案提供依据。
来源升降榜:提供开通统计后任意两日的TOP10000搜索词、来路域名引入流量的对比状况,并按照变化的剧烈程度提供排行榜。 用户可经过此功能快速找到哪些来路对网站流量的影响比较大,从而及时排查相应来路问题。
3)、受访分析
受访域名:提供访客对网站中各个域名的访问状况。 通常状况下,网站不一样域名提供的产品、内容各有差别,经过此功能用户能够了解不一样内容的受欢迎程度以及网站运营成效。
受访页面:提供访客对网站中各个页面的访问状况。 站内入口页面为访客进入网站时浏览的第一个页面,若是入口页面的跳出率较高则须要关注并优化;站内出口页面为访客访问网站的最后一个页面,对于离开率较高的页面须要关注并优化。
受访升降榜:提供开通统计后任意两日的TOP10000受访页面的浏览状况对比,并按照变化的剧烈程度提供排行榜。 可经过此功能验证通过改版的页面是否有流量提高或哪些页面有巨大流量波动,从而及时排查相应问题。
热点图:记录访客在页面上的鼠标点击行为,经过颜色区分不一样区域的点击热度;支持将一组页面设置为"关注范围",并可按来路细分点击热度。 经过访客在页面上的点击量统计,能够了解页面设计是否合理、广告位的安排可否获取更多佣金等。
用户视点:提供受访页面对页面上连接的其余站内页面的输出流量,并经过输出流量的高低绘制热度图,与热点图不一样的是,全部记录都是实际打开了下一页面产生了浏览次数(PV)的数据,而不只仅是拥有鼠标点击行为。
访问轨迹:提供观察焦点页面的上下游页面,了解访客从哪些途径进入页面,又流向了哪里。 经过上游页面列表比较出不一样流量引入渠道的效果;经过下游页面列表了解用户的浏览习惯,哪些页面元素、内容更吸引访客点击。
4)、访客分析
地区运营商:提供各地区访客、各网络运营商访客的访问状况分布。 地方网站、下载站等与地域性、网络链路等结合较为紧密的网站,能够参考此功能数据,合理优化推广运营方案。
终端详情:提供网站访客所使用的浏览终端的配置状况。 参考此数据进行网页设计、开发,可更好地提升网站兼容性,以达到良好的用户交互体验。
新老访客:当日访客中,历史上第一次访问该网站的访客记为当日新访客;历史上已经访问过该网站的访客记为老访客。 新访客与老访客进入网站的途径和浏览行为每每存在差别。该功能能够辅助分析不一样访客的行为习惯,针对不一样访客优化网站,例如为制做新手导航提供数据支持等。
忠诚度:从访客一天内回访网站的次数(日访问频度)与访客上次访问网站的时间两个角度,分析访客对网站的访问粘性、忠诚度、吸引程度。 因为提高网站内容的更新频率、加强用户体验与用户价值能够有更高的忠诚度,所以该功能在网站内容更新及用户体验方面提供了重要参考。
活跃度:从访客单次访问浏览网站的时间与网页数两个角度,分析访客在网站上的活跃程度。 因为提高网站内容的质量与数量能够得到更高的活跃度,所以该功能是网站内容分析的关键指标之一。
5)、转化路径分析
转化定义:
访客在您的网站完成了某项您指望的活动,记为一次转化,如注册或下载。
目标示例:得到用户目标:在线注册、建立帐号等。
咨询目标:咨询、留言、电话等。
互动目标:视频播放、加入购物车、分享等。
收入目标:在线订单、付款等。
转化数据的应用:
在报告的自定义指标中勾选转化指标,实时掌握网站的推广及运营状况。
结合“所有来源”、“转化路径”、“页面上下游”等报告分析访问漏斗,提升转化率。
对“转化目标”设置价值,预估转化收益,衡量ROI。
路径分析:根据设置的特定路线,监测某一流程的完成转化状况,算出每步的转换率和流失率数据,如注册流程,购买流程等。
转化类型:
一、页面
二、事件
最后寄语,以上是博主本次文章的所有内容,若是你们以为博主的文章还不错,请点赞;若是您对博主其它服务器大数据技术或者博主本人感兴趣,请关注博主博客,而且欢迎随时跟博主沟通交流。