一、为何Ranking Model采用了weighted logistic regression做为输出层?在模型serving过程当中又为什么没有采用sigmoid函数预测正样本的probability,而是使用 这一指数形式预测用户观看时长?算法
再简要总结一下YouTube Ranking Model的Serving过程要点。ide
二、若是是排序使用的话,odds和sigmoid单调性一致;若是使用时长后续有其余处理,和直接回归或多分类有多大差异,为何感受有些迂回?函数
a:回归有一个问题在于值域是负无穷到正无穷,在视频推荐这样一个大量观看时间为0的数据场景,为了优化MSE,极可能会把观看时间预测为负值,而在其余数据场景下又可能预测为超大正值。逻辑回归在这方面的优点在于值域在0到1,对于数据兼容性比较好,尤为对于推荐这种rare event的场景,相比回归会更加适合。并且odds的值域也是非负的,符合watch time的物理意义。优化
q:那若是把观看时间quantization成k个bucket而后作多分类 是否是也能够 感受比weightedLR更简单train起来 固然会损失点效果可能3d
a:多分类输出粒度不够细,不适合用来作排序。此外多分类的参数数量也比二分类多不少,一样的样本量下训练效果可能不如二分类效果好。视频
q:serving的时候,sigmoid和和指数函数都是单调递增的。若是取固定的top K个item作曝光,那这两种方式结果彻底是同样的,没理解为何还要用指数函数。blog
a:若是只是涉及到排序阶段的话,结果应该是同样的,看本身业务须要,若是是广告算法,须要乘以对应的cpc,结果就有不一样了;由于预估的时长值后面会用到的,这里不能只看序排序
q:不明白 我能够在一开始使用观看时长除以视频时长获得一个0到1的数 这样就没有边界问题了 很疑惑 求指教 it
a:你说这种作法只能对训练数据有效,但不能保证获得的模型预测结果也在01之间。io