===网络
在这篇文章中,咱们看看什么是渠道归因,以及它如何与马尔可夫链的概念联系起来。咱们还将经过一个电子商务公司的案例研究来理解这个概念在理论上和实践上如何运做(使用R)。网站
Google Analytics为归因建模提供了一套标准规则。根据Google的说法,“归因模型是决定销售和转化功劳如何分配给转化路径中的接触点的规则或一组规则。例如,Google Analytics中的最后一次互动模型会为紧接销售或转化以前的最终接触点(即,点击次数)分配100%的功劳。相比之下,第一个互动模型为启动转化路径的接触点分配100%的功劳。“spa
咱们将在本文后面看到最后一个交互模型和第一个交互模型。在此以前,让咱们举一个小例子,进一步了解渠道归因。假设咱们有一个转换图,以下所示:code
在上述状况下,客户能够经过频道'C1'或频道'C2'开始他们的旅程。以C1或C2开始的几率为50%(或0.5)。咱们首先计算转换的整体几率,而后进一步查看每一个通道的影响。blog
P(转换)= P(C1→C2→C3→转换)+ P(C2→C3→转换)图片
= 0.5 * 0.5 * 1 * 0.6 + 0.5 * 1 * 0.6rem
= 0.15 + 0.3get
= 0.45产品
马尔可夫链是一个过程,它映射运动并给出几率分布,从一个状态转移到另外一个状态。马尔可夫链由三个属性定义:it
状态空间 - 处理可能存在的全部状态的集合
转换操做符 - 从一个状态转移到另外一个状态的几率
当前状态几率分布 - 在过程开始时处于任何一个状态的几率分布
咱们知道咱们能够经过的阶段,从每条路径移动的几率以及咱们知道当前状态的可能性。这看起来与马尔可夫链类似,不是吗?
事实上,这是一个马尔可夫链的应用。咱们稍后会回来; 如今让咱们坚持咱们的例子。若是咱们要弄清楚渠道1在咱们的客户从始至终转换的旅程中的贡献,咱们将使用去除效果的原则。去除效果原则说,若是咱们想要在客户旅程中找到每一个频道的贡献,咱们能够经过删除每一个频道并查看在没有该频道的状况下发生了多少次转化。
例如,咱们假设咱们必须计算通道C1的贡献。咱们将从模型中删除通道C1,并查看图片中没有C1的状况下发生了多少次转换,即全部通道无缺无损时的总转换次数。咱们计算通道C1:
P(去除C1后的转换)= P(C2→C3→转换)
= 0.5 * 1 * 0.6
= 0.3
30%的客户互动能够在没有C1频道的状况下进行转换; 而C1无缺无损,45%的互动能够转换。因此,C1的去除效果是
0.3 / 0.45 = 0.666。
C2和C3的去除效果为1(您能够尝试计算,但直觉地认为,若是咱们要删除或者C2或C3,咱们将可以完成任何转换?)。
这是马尔可夫链的一个很是有用的应用。在上述状况下,全部通道--C1,C2,C3(在不一样阶段)被称为转换状态 ; 而从一个信道移动到另外一个信道的几率称为转移几率。
客户旅程是一系列渠道,能够看做是一个有向马尔可夫图中的一个链,其中每一个顶点都是一个状态(渠道/接触点),每条边表示从一个状态移动到另外一个状态的转移几率。因为到达状态的几率仅取决于之前的状态,所以能够将其视为无记忆马尔可夫链。
让咱们进行真实案例研究,看看咱们如何实施渠道归因建模。
一家电子商务公司进行了一项调查并收集了客户的数据。这能够被认为是具备表明性的人群。在调查中,公司收集了有关客户访问各类触点的数据,最终在其网站上购买该产品。
总共有19个渠道,客户能够遇到产品或产品广告。在19个频道以后,还有三种状况:
#20 - 客户决定购买哪一种设备;
#21 - 客户已经作出最终购买,而且;
#22 - 客户还没有决定。
渠道的整体分类以下:
类别渠道
网站(1,2,3)公司网站或竞争对手的网站
研究报告(4,5,6,7,8)行业咨询研究报告
在线/评论(9,10)有机搜索,论坛
价格比较(11)聚合
朋友(12,13)社交网络
专家(14)专家在线或离线
零售店(15,16,17)物理商店
杂项。(18,19)其余如促销活动在不一样的地点
如今,咱们须要帮助电子商务公司肯定投资营销渠道的正确策略。应该关注哪些渠道?公司应该投资哪些渠道?咱们将在下一节中使用R来解决这个问题。
让咱们继续前进,尝试在R中的实现并检查结果。
输出:
R05A.01R05A.02R05A.03R05A.04... ..R05A.18R05A.19R05A.20 1643 NANANA 21910NANANA 9132016NANANA 8152021NANANA 1691320NANANA 11184NANANA
咱们将进行一些数据处理,将其带入一个阶段,咱们能够将其用做模型中的输入。而后,咱们将肯定哪些客户旅程已进行最终转换(在咱们的状况下,全部旅程都已达到最终转换状态)。
咱们将建立一个特定格式的变量'路径',能够做为模型的输入。另外,咱们将使用“dplyr”包找出每条路径的总发生次数。
路径转变
1> 1> 1> 201 1> 1> 12> 121 1> 1> 14> 13> 12> 201 1> 1> 3> 13> 3> 201 1> 1> 3> 17> 171 > 1> 6> 1> 12> 20> 121
输出:
路径转变
1> 1> 1> 201 1> 1> 12> 121 1> 1> 14> 13> 12> 201 1> 1> 3> 13> 3> 201 1> 1> 3> 17> 171 1> 1> 6> 1> 12> 20> 121
如今,咱们将建立一个启发式模型和一个马尔科夫模型,将二者结合起来,而后检查最终结果。
输出:
CHANNEL_NAMEfirst_touch_conversions... ..linear_touch_conversionslinear_touch_value 113073.77366173.773661 200473.998171473.998171 127576.12786376.127863 143456.33574456.335744 13320204.039552204.039552 3168117.609677117.609677 173176.58384776.583847 65054.70712454.707124 85653.67786253.677862 10547211.822393211.822393 1166107.109048107.109048 16111156.049086156.049086 219994.11166894.111668 4231250.784033250.784033 72633.43599133.435991
输出:
CHANNEL_NAMEtotal_conversiontotal_conversion_value 182.48296182.482961 20432.40615432.40615 1283.94258783.942587 1463.0867663.08676 13195.751556195.751556 3122.973752122.973752 1783.86672483.866724 663.28082863.280828 861.01611561.016115 10209.035208209.035208 11118.563707118.563707 16158.692238158.692238 298.06719998.067199 4223.709091223.709091 741.91924841.919248
在进一步讨论以前,咱们先来了解一下咱们上面看到的一些术语的含义。
第一次触摸转换:当该频道是客户的第一个触摸点时,经过频道进行的转换。第一个触点得到100%的功劳。
上次触摸转换:当该频道是客户的最后一个接触点时,经过频道发生的转化。100%信用给予最后的接触点。
回到R代码,让咱们合并这两个模型,并以更容易理解的视觉吸引人的方式表示输出。
从上图中能够清楚地看到情景。从第一次触摸转换角度来看,频道10,频道13,频道2,频道4和频道9很是重要; 而从最后接触的角度来看,第20频道是最重要的(在咱们的例子中,应该是由于客户决定购买哪一种产品)。就线性触摸转换而言,通道20,通道4和通道9是重要的。从总转换角度来看,频道10,13,20,4和9很是重要。
在上面的图表中,咱们已经可以找出哪些是咱们关注的重要渠道,哪些能够被忽略或忽视。这种状况使咱们对客户分析领域马尔可夫链模型的应用有了很好的了解。电子商务公司如今能够自信地建立他们的营销策略,并使用数据驱动的看法分配他们的营销预算。