腾讯社交广告大赛回来的感悟


参赛优秀队伍合照




相当于,目标是两块:
C
根据这段时间的学习学会的应对于数据公式的模式,去做match他们的需求的东西
通用机器学习机AIL


大公司的模式:
底层embedding
(连续值用树模型?)
中层UBM
输出层按照每个task的需求做输出层模块
(one-model-learn-them-all)

计算方法上用参数服务器方法
具体的场景上,根据“节省人力”为第一目标做优化
针对本公司(即本数据)的通用机器学习机Local Data MLaaS


大公司的焦虑:
最焦虑的是:
faceu 和快手这种细分市场爆红app
ATJ这种具有数据和实力的公司
随着数据越来越大维数越来越多,数据模型需要的VC维下降
有可能某一个产品一推出就占领各种市场,打败了多年以来建立起来的,通过无数人力和经验堆积出来的经验模型
所以有必要占领先机

tensorflow其实是高性能计算语言,只是很合适做机器学习

我的优势:
对模型的维度性思维
学习并整合一切的能力



MLaaS完善一下,提供好的性能和置信度
那个人使用了前导加快,用矩阵×优化和tensorflow快速lookup
他以为没什么应用,大概是腾讯内部也没有太广泛地推开吧(不像百度?)
他也想留在广州?因为学校在广州
上海nlp,图像北京
数据退潮的时候应该怎样
搜一搜看一看那边是ai lab,游戏那边也有在做
蔡博去实习了
其实技术栈都无所谓,其实进去了以后都是要重新学习的?
赶风口一定要快,趁热度还没有褪去马上就职或者马上创业


深度是一定的趋势,脑科学、量子计算,极大数据,几大维度的触角


数据分析是大数据和统计数学的残留/极限【尽快体系化,尽快固定化,尽快close the issue】

尽快转深度,尽量寻求深度的实现和数据【跟随谷歌大佬的步伐】

数据分析在小数据量的时候,可以作为输入数据的前体,通过提供已有知识减小所需vc维,辅助深度学习,数据量更小的时候甚至可以直接输出结果
数据量增长的时候,可接受的vc维变大,深度越来愈多,作为前体的数据分析,输出的维度越来越大,对应着低维抽象层次越来越少(比如简单交叉特征),
慢慢地,连高级特征(如SIFT)都可以不用输入了。最后消失了

数据分析要怎样用,用到什么程度,取决于数据量。要计算时,应该通过计算VC维一类的衡量标准,决定两种方法的融合比例