计算广告学-多点归因模型(Multi-Touch Attribution Model)

  计算广告学中的一个重要的问题是, 若是用户产生了一次转化(conversion, 好比购买, 注册等), 且该用户在转化以前看过大量不一样频道(好比搜索, 展现, 社交等等)的广告, 那么咱们如何肯定是哪一个(或)那些频道的广告致使的此次转化呢?算法

  这就是归因(Attribution)问题, 以下图所示:机器学习

  工业界采起的两种方法是“最后阅读获胜”(Last View Win)和“最后点击获胜”(Last Click Win), 前者会把转化归因于这个用户最后一次阅读的广告属于的频道, 后者会归因于最后一次点击的广告属于的频道(若是一直没有点击, 则归因于最后一次阅读的广告属于的频道). 以上两种方法统称为Last-Touch Attribution. 这种方法很简单, 可是忽略了除最后一个频道之外的全部其余频道的广告的影响, 因此效果不是很好.性能

  实际上, 每一个频道都对用户最终的转化产生了影响, 这种考虑多个频道的影响的模型称之为多点归因模型(Multi-Touch Attribution Model). 比较简单的就是线性归因模型和时间衰退归因模型:学习

  

  

  Xuhui Shao等人提出了使用机器学习的方法来解决归因问题. 把归因看做是分类问题, 对于每一个用户, 若是其有转化, 则是正样本, 不然是否样本. 特征则选择该用户在各个频道上的广告的阅读量. 在解决归因问题时, 咱们不单单要求模型获得很好地分类性能(正确的预测用户是否有转化), 更重要的是, 获得各个频道对于用户的转化的影响, 以肯定各个频道对于用户的转化的做用. ui

  可使用逻辑斯蒂回归(Logistic Regression)做为模型, 其获得的各个特征(频道)的系数做为其对该用户的转化的影响. 另外, 由于用户的行为很复杂, 因此单个逻辑斯蒂模型获得的系数估计的变化性可能很大, 这样不利于解释(由于重复试验时获得的各个频道对转化的影响变化很大). Xuhui等人提出了一种新的衡量标准: V-A metric. V(variability)衡量的是模型获得的特征系数(亦即各频道对转化的影响)的可变性, A表示的是对用户分类的准确性.spa

  Xuhui等人提出使用装袋(bagging)方法训练多个逻辑斯蒂回归模型, 对于每一个特征, 咱们求得其系数的估计的标准差, 而后取全部特征的标准差的平均值来做为V. 使用多个逻辑斯蒂模型的准确率的平均值来做为A. 算法的具体步骤为:.net

  1. 从全部的数据中随机的抽取\(p_s\)比例的训练样本, 以及\(p_c\)比例的特征. 训练一个逻辑斯蒂模型. 记录各个特征的系数.
  2. 以上步骤迭代M次, 取各个特征的系数的平均值做为各个特征最终的系数值.

参考文献:3d

  [1]. Xuhui Shao, Lexin Li, Data Driven Multi-Touch Attribution Models.blog

  [2]. The Math Behind Multi-Touch Attribution Modelget

  [3]. Multi-Channel Attribution Model: The good, Bad and Ugly Models

相关文章
相关标签/搜索