网站数据分析(9)—— 流量运营分析模型

本章的分析模型围绕流量数据化运营展开,主要包括:流量波动检测、渠道特征聚类、广告整合传播模型、流量预测模型。数组

1、流量波动检测

在广告流量结构中,有几类流量是相对稳定而且效果较好的,例如导航类流量(例如360导航)、品牌专区流量(例如百度品牌区)、品 牌关键字(例如百度品牌关键字)、SEO流量(例如百度SEO流量)。这些流量虽然会受到企业广告预算的影响,但通常状况下只要广告预算足够,企业是不会主动撤销对于这几类流量渠道的费用支持。浏览器

对这几类广告渠道能够经过广告流量波动模型进行监测,该模型能够对具备相对稳定或具备必定时间规律特征的数据作检测分析。在以前的异常检测类模型中,咱们提到了监督式和非监督式两种,这里介绍一种相对传统的基于时间序列的异常检测方法。bash

基于时间序列的异常检测方法与其余异常检测方法最显著的特征是数据之间具备明显的时间前后次序,而且每一个数据都有时间维度且按时间排列。与时间序列分析相似,在作检测应用时的总体流程都须要对时间周期数据作检验、差分并进行拟合,不一样之处在于预测的结果数据中咱们能够定义上下限的置信区间,若是真实值超出置信区间那么就意味着数据波动异常。服务器

步骤实现该方法:cookie

  • 步骤1:数据读取和预处理,主要是将字符串转换为时间格式。
  • 步骤2:数据稳定性、白噪声检验和预处理。
  • 步骤3:时间ARIMA或ARMA对时间序列数据拟合,找到最佳PDQ或QP参数值以及对应fit(训练时)的最佳模型结果对象。
  • 步骤4:基于最佳模型结果对象选择应用forecast方法作预测(而不是predict方法),并设置以下关键参数:
    • steps:整数型,要预测的时间序列点以外的数据数,例如设置step=6的效果与predict方法中设置predict(start='2019-07-28',end='2019-08-02')的周期是相同的。
    • alpha:浮点型,设置具体置信区间范围,置信区间值设置为(1-alpha)%,例如设置alpha=0.05会计算在95%置信区间下的范围值。

例如使用forecast(steps=6,alpha=0.05)后返回的结果以下:并发

(array([ 183.03624893, 124.61319468, 134.67763687, 143.22815918, 111.08688519, 113.70161409]), 
 array([ 40.80850407, 43.94083939, 46.60465652, 50.11657005, 50.13881589, 50.13929372]), 
 array([[ 103.0530507 , 263.01944716], [ 38.49073202, 210.73565733], [ 43.33418858, 226.02108516], [ 45.00148685, 241.45483152], [ 12.81661182, 209.35715855], [ 15.43040419, 211.97282398]]))
复制代码

结果包括三个数组:工具

  • 第一个数组是预测值,跟使用predict方法获得的结果相同。
  • 第二个数组是预测值的标准差。
  • 第三个数组是预测值的置信区间的上下限,是一个二维数组。基于第三个数组能够定义出正常波动范围的上下限,若是超出该范围则能够认定为异常波动。

除了能够应用到广告流量的异常波动检测外,该模型还能够应用到流量运营中的网站重点内容的检测,例如首页、帮助中心、购物车流程页等,这些页面一般相对来说从流量来源结构、用户访问特征等方面的特征相对稳定,也能够作流量波动性检测。优化

2、渠道特征聚类

当企业投放众多广告媒体时,第一次对如此众多的媒体多特征分析可能无从下手。此时能够考虑对广告渠道特征进行聚类,而后从几类具备比较显著的群体上再深刻挖掘。网站

以几乎全部企业都会投放的SEM渠道为例,帐户内的关键字拥有上千个长尾词是常态,大型企业过百万的关键字更是“屡见不鲜”,如何针对海量关键字效果作分析是一个难点。以聚类方法为例,首先可使用聚类方法将全部的关键字的属性、操做和效果划分为多个群组。其中:spa

  • 属性:帐户结构、质量度等。
  • 操做:预算、价格、黑名单、地域、匹配方式、时段、展现方式、匹配的创意、平台等。
  • 效果:SEM排名、点击价格等SEM指标,站外广告曝光、点击以及站内流量数量和转化类指标

而后,基于划分的群组分析不一样群组间的显著性特征,从中找到能够进一步分析和优化的方向。例如:

  • 某一类关键字的排名较差、质量度低、流量低、转化差,这些可 能须要从新规划关键字投放策略;
  • 某一类关键字的排名好、质量度高,可是流量低,这些可能须要重点优化展现和创意的吸引度,以得到用户的关注和点击;
  • 某一类关键字的排名好、质量度高、流量高,可是转化差,这些关键字须要重点从着陆页开始作分析,将转化流程和步骤层层拆分,找到流失和转化的关键节点。

3、广告整合传播模型

广告整合传播指全部企业的广告和传播活动都以统一的策略做为指导,经过必定方式的组合来实现传播效果的最大化目标。广告整合传播的概念很早就已经出现,跟这个概念相似的另外一个概念是整合营销传播。但整合营销传播涵盖的内容几乎涉及企业经营的方方面面,范围太大,所以这里咱们只讨论其中的广告整合传播的内容。

广告整合传播的出现主要基于两方面背景:

  • 当前的广告媒体以及用户接触信息的渠道很是多,致使没有一种广告渠道能够彻底覆盖全部用户群体,所以媒体碎片化现象很是严重。企业要想覆盖尽可能多的用户,只能选择更多的广告媒体一块儿投放。
  • 营销公司(尤为是4A公司)发现,不是全部的广告渠道都对于企业广告传播具备相同的做用和贡献,基于不一样渠道的贡献状况须要在组合时使用必定的组合策略和方法。

如何选择广告媒体以及如何组织不一样广告媒体的传播策略是广告整合传播关注的问题。实际上该问题在数据化运营时代以前已经开始研究,但当时受限于数据样本、技术等问题,只能经过抽样调查的方式开展,所以结果的参考性不大。

当前,经过数据量化的方式作广告整合传播模型分析,主要涉及三个数据分析方法的组合:

3.1 广告来源路径

广告来源路径能够提供不一样路径所产生的转化数量、转化价值、平均须要时间以及转化步长等。下图的报告来自于Webtrekk(其余网站分析工具也提供相似的报告),报告中的每一条广告媒体路径都是在转化前提下造成的路径。

以序号10所表明的用户广告媒体路径为例,用户先经过Facebook后经过Direct进入网站并完成转化的数量是21次,价值是103.4,平均须要的转化时间是0.76天,总转化步长是2(两步)。

3.2 目标转化归因

目标转化归因可以解决在不一样的归因模式下,全部参与转化的广告媒体对于目标的贡献状况。在不一样的归因模型下,不一样渠道的贡献。不少网站分析工具能够提供多种可选归因模型。

Webtrekk提供的多重归因模型,该模型能够对于根据位置综合归因,权重分配一般是为最初进入渠道和最末进入渠道订 单贡献较大,其余渠道贡献较弱。如图中默认第一和末端渠道权重分别为30%和40%,其余渠道平均都是10%。

在归因的价值度量上,能够选择使用多种度量指标,例如转化数量、转化价值等。具体以定义的转化目标为依据。一般状况下,电子商务转化中,对于订单类的贡献以订单量为衡量指标;对于非电子商务类转化,以目标完成次数为衡量指标(例如阅读数、提交次数、线索数量等)。

3.3 广告渠道的关联访问

关联分析不只能够用来作购物篮分析更能够扩展到用户访问行为、搜索行为等多种模式的分析。将关联分析应用 到广告渠道的模式探索,是对用户广告来源路径的进一步深化。

在对广告来源路径的研究中,咱们已经知道每一条用户转化路径以及包含的广告渠道,可是这种分析方法仍然有2个问题没有解决:

  • 该路径已转化为触发点,没有转化就没有路径,这会使得那些侧重于曝光的信息没法产生路径信息,更没法测量其对网站的贡献意义,哪怕仅仅是流量贡献。
  • 在大多数状况下,转化路径都会产生长尾效应,即大多数的转化会集中在成百上千个各式各样的转化路径中,仅凭观察没法从全部路径中提取出关于渠道组合的有效规律。

将关联分析应用到广告渠道的关联访问,刚好能够解决上述2个问题。下截图为Webtrekk的渠道关联访问报告。

在报表中,咱们能够找到特定广告媒体之间的相互关联关系。这种关联关系跟转化无关,只与用户的前后访问行为和模式有关。例如,序号1表明的关联模式意味着用户先经过Facebook再经过Daily Banner访问网站的数量是21,支持度是0.76,提高度是1.03。其中数量对应关联分析结果中的实例数。

综上,咱们来总结一下如何经过这三种方法实现对广告整合传播模型的更好解读:

  • 用户广告来源路径能够帮助咱们了解带有转化的用户访问来源的全部前后序列以及转化步长和时间,这对于转化过程、时间和模式的理 解很是重要。虽然每一个转化的路径是一个全路径,但读者其实能够将其路径做为已经预处理好的关联分析的源数据,直接对其作关联分析能够从中找到有转化的用户的广告来源模式。
  • 目标转化归因能够帮助咱们根据企业自身特色定义的归因模型,有效的对参与转化的广告渠道作贡献分配,从而辅助于价值评估和付费投入,尤为对于处于转化“前期”处于引流和辅助功能的渠道特别重要。
  • 广告渠道的关联访问能够帮助咱们了解全部用户频繁的访问模式,尤为对于小范围的媒介组合尤为有效,它能够解决全过程(包含转化和非转化)的用户关联访问模式的问题。

虽然上述三种方法已经相对于之前的调研问卷方式有了进一步的量化提高,但仍然有如下几方面问题须要注意:

  • 上述方法的实现目前都是基于cookie的,而咱们知道cookie的稳定性会随着时间、用户操做等因素改变,这会致使数据直接发生变化。
  • 用户应用平台的多样化以及多设备、多浏览器和多应用致使的同一个用户识别难度增长,若是用户没有有效的识别方式,那么数据会产生极大的分散性,也就没法产生关联效应。
  • 流量做弊的问题在广告领域比较频繁,在作整合分析以前的异常检测和数据排除工做也必不可少。
  • 受限于数据采集的限制,当用户仅仅浏览可是没有点击企业投放的广告并到达企业网站或应用时,因为企业没法得到广告曝光信息,所以没法对非点击或者点击非到达类的渠道作评估。常见的此类渠道以展现类广告为主,例如CPM类。

4、流量预测模型

广告流量预测几乎是每一个营销部门在作广告策划时的必要步骤。经过广告流量预测模型能够基于现有的流量以及广告费用水平等因素,预测在必定条件下能够产生多少流量。在电子商务公司中,这种流量每每基于销售目标产生,一般思路是企业先肯定销售任务,而后根据销售任务反推须要的流量支持。

流量预测根据不一样的场景有不一样的方法:

  • 若是是没有可控的自变量或没法找到自变量的,例如直接流量、引荐流量、天然社交媒体流量等,能够考虑使用时间序列分析方法。
  • 若是是费用控制类媒体,例如SEM、硬广、导航类广告等,可使用回归类模型作流量预测。

流量预测应用跟其余数值型预测(例如销售预测)的方法相似,但存在必定的特殊性:

  • 广告费用的持续性。通常状况下,广告费用支出是持续的,但在某些状况下,可能因为费用到帐不及时等因素致使广告没法投放,此时会出现有费用无流量的状况。这些一般是因为沟通机制和媒介自身因素 致使。
  • 服务器并发的响应性。当企业作大型促销活动时,流量每每呈几倍甚至几十倍的增加,若是企业服务器没法支撑瞬时的高流量并发,那么会影响整个公司的数据工做,包括流量、销售、会员等。在数据方面的影响主要是没有流量数据、销售数据下跌等。
  • 广告媒体的相互影响。广告媒体的投放每每会产生交叉影响效应,这意味着即便某些媒体没有投放广告,也会受到其余媒体或活动的影响而产生数据变化。例如投放广告一般会增长SEM品牌关键字、品牌区、导航网站、直接输入渠道的流量。
  • 做弊流量。这里又一次提到做弊流量,缘由是做弊这一因素不少状况下不可控而且不必定能被检测出来。另外,不一样类型的广告的做弊流量规模也不一样。一般点击类(流量数量为主的广告渠道,例如硬广)做弊较为严重,SEM、导航、社交媒体等相对较好。
  • 广告效果的持续性。当广告中止投放以后,广告效果仍然会持续一段时间。这种现象比较常见,尤为是时效性较长的广告,例如电子邮件、社交媒体等。
  • 补量。补量的意思是广告媒介因为某些自身因素,没有达到预期承诺的广告投放标准,例如展现次数不足、点击量不足等,此时媒介会经过增长广告位置、延长广告时长等方式补足承诺效果。
相关文章
相关标签/搜索