KDD Cup 2020 AutoGraph比赛冠军技术方案及在美团的实践

背景

ACM SIGKDD (国际数据挖掘与知识发现大会,简称 KDD)是数据挖掘领域的国际顶级会议。KDD Cup比赛是由SIGKDD主办的数据挖掘研究领域的国际顶级赛事,从1997年开始,每一年举办一次,是目前数据挖掘领域最具影响力的赛事。该比赛同时面向企业界和学术界,云集了世界数据挖掘界的顶尖专家、学者、工程师、学生等参加,为数据挖掘从业者们提供了一个学术交流和研究成果展现的平台。KDD Cup 2020共设置五道赛题(四个赛道),分别涉及数据误差问题(Debiasing)、多模态召回问题(Multimodalities Recall)、自动化图学习(AutoGraph)、对抗学习问题和强化学习问题。node

图1 KDD 2020会议

美团到店广告平台搜索广告算法团队基于自身的业务场景,一直在不断进行前沿技术的深刻优化与算法创新,团队在图学习、数据误差、多模态学习三个前沿领域均有必定的算法研究与应用,并取得了不错的业务结果。基于这三个领域的技术积累,咱们在比赛中选择了三道紧密联系的赛题,但愿应用并提高这三个领域技术积累,带来技术与业务的进一步突破。搜索广告算法团队的黄坚强、胡可、漆毅、曲檀、明健、博航、雷军与中科院大学唐兴元共同组建参赛队伍Aister,参加了AutoGraph、Debiasing、Multimodalities Recall三道赛题,最终在AutoGraph赛道中得到了冠军(1/149),在Debiasing赛道中得到冠军(1/1895),并在Multimodalities Recall赛道中得到了季军(3/1433)。算法

近些年来,图神经网络(GNN)在广告系统、社交网络、知识图谱甚至生命科学等各个领域都获得了愈来愈普遍的应用。广告系统中存在着较为丰富的User-Ad、Query-Ad、Ad-Ad、Query-Query等结构化关系,搜索广告算法团队成功地将图表示学习应用于广告系统上,业务效果获得了必定的提高。此外,基于广告系统上图学习的技术积累,团队在今年KDD Cup的AutoGraph赛道中斩获了第一名。本文将介绍AutoGraph赛题的技术方案,以及团队在广告系统中图表示学习的应用与研究,但愿对从事相关研究的同窗可以有所帮助或者启发。微信

图2 KDD Cup 2020 AutoGraph比赛TOP 5榜单

赛题介绍与问题分析

AutoGraph问题概述

自动化图表示学习挑战赛(AutoGraph)是有史以来第一个应用于图结构数据的AutoML挑战,是AutoML与Graph Learning两个前沿领域的结合。KDD Cup 2020中的AutoML赛道挑战,由第四范式、ChaLearn、斯坦福大学和Google提供。网络

图结构数据在现实世界中无处不在,例如社交网络、论文网络、知识图谱等。图表示学习一直是一个很是热门的话题,它的目标是学习图中每一个结点的低维表示 ,而后可用于下游任务,例如社交网络中的朋友推荐,或将学术论文分类为引用网络中的不一样主题。 传统作法通常利用启发法从图中提取每一个结点的特征,例如度统计或基于随机游走的类似性。 近些年来,业界提出了大量用于图表示学习任务的复杂模型,例如图神经网络(GNN)[1],已经帮助不少任务(例如结点分类或连接预测)取得了新的成果。架构

然而,不管是传统的启发式方法仍是最近基于GNN的方法,都须要投入大量的计算和专业知识资源,只有这样才能得到使人满意的任务性能。 例如在Deepwalk[2]和Node2Vec[3]中,必须对两种众所周知的基于随机游动的方法进行微调,以得到各类不一样的超参数,例如每一个结点的游走长度和数量、窗口大小等,以得到更好的性能。 而当使用GNN模型时,例如GraphSAGE[4]或GAT[5],咱们必须花费大量时间来选择GraphSAGE中的最佳聚合函数或GAT中多头自注意力头的数量。 所以,因为人类专家在调参过程须要付出大量时间和精力,进而限制了现有图表示模型的应用。框架

AutoML[6]是下降机器学习应用程序中人力成本的一种有效方法,而且在超参数调整、模型选择、神经体系结构搜索和特征工程方面都取得了使人鼓舞的成绩。 为了使更多的人和组织可以充分利用其图结构数据,KDD Cup 2020 AutoML赛道举办了针对图结构数据的AutoGraph竞赛。在这一竞赛中,参与者应设计一个解决方案来自动化进行图表示学习问题(无需任何人工干预)。该解决方案能够基于图的给定特征、邻域和结构信息,有效而高效地学习每一个结点的高质量表示,解决方案应设计为自动提取和利用图中的任何有用信号。机器学习

本次AutoGraph竞赛针对自动化图学习这一前沿领域,选择了图结点多分类任务来评估表示学习的质量。竞赛官方准备了15个图结构数据集,其中5个数据集可供下载,以便参赛者离线开发其解决方案。 除此以外,还将向参与者提供另外5个反馈数据集,以评估其AutoGraph解决方案的公共排行榜得分。 以后,无需人工干预,竞赛的最后一次提交将在剩余的5个数据集里进行评估,这5个数据集对于参赛者而言是一直不可见的,评估排名最终会被用来评估全部参赛者的解决方案。 并且,这些数据集是从真实业务中收集的,随机划分为训练集和测试集,每一个数据集给予了图结点id和结点特征,以及图边和边权信息,而且每一个数据集都给了时间预算。参赛者必须在给定的时间预算和算力内存限制下设计一个自动化图学习解决方案,对每一个数据集进行结点分类。每一个数据集会经过精度(Accuracy)来评估准确性,经过精度能够肯定参赛者们在每一个数据集的排名,最终排名将根据最后5个数据集的平均排名来评估。函数

数据分析与问题理解

咱们对离线五个图数据集进行分析,发现其图的类型多种多样,以下表1所示。从图的平均度能够看出离线图三、4较为稠密,而图一、二、5较为稀疏,从特征数量能够看出图一、二、三、4带有结点特征,图5无结点特征,同时咱们发现图4是有向图而图一、二、三、5是无向图,咱们考虑将图类型划分为有向图/无向图、稠密图/稀疏图、带特征图/无特征图等。性能

从表1中,咱们也能够看出大部分图数据集的时间限制都在100秒左右,这是一个很短的时间限制,大部分神经网络架构和超参数搜索方案[7,8,9,10]都须要一个较长的搜索时间,须要数十个小时甚至长达数天进行架构和超参数搜索。所以,不一样于神经网络架构搜索,咱们须要一个结构和超参数快速搜索的方案。学习

表1 离线五个图数据集的概况

如图3所示,咱们发如今图数据集5上存在着模型训练不稳定的问题,模型在某个epoch上验证集精度显著降低。咱们考虑主要是图数据集5易于学习,会发生过拟合现象,所以咱们在自动化建模过程当中须要保证模型的强鲁棒性。

图3 模型在训练过程当中的不稳定性

同时,从下图4能够发现,不一样于传统的固定数据集评测数据挖掘竞赛,保证多个类型,分布差别大的数据集排名的稳定性相比于优化某个数据集的精度更为重要。例如,数据集5模型精度差别仅有0.15%,却致使了十个名次的差别,数据集3模型精度差别有1.6%,却仅致使7个名次的差别,于是咱们须要采用排名鲁棒的建模方式来加强数据集排名的稳定性。

图4 不一样参赛团队在不一样数据集上的精度及排名

问题挑战

基于以上数据分析,该赛题中存在如下三个挑战:

  • 图数据的多样性:解决方案要在多个不一样的图结构数据上都能达到一个好的效果,图的类型多种多样,包含了有向图/无向图、稠密图/稀疏图、带特征图/无特征图等。
  • 超短期预算:大部分数据集的时间限制在100s左右,在图结构和参数的搜索上须要有一个快速搜索的方案。
  • 鲁棒性:在AutoML领域,鲁棒性是很是重要的一个因素,最后一次提交要求选手在以前没见过的数据集上进行自动化建模。

竞赛技术方案

针对以上三个挑战,咱们设计了一个自动化图学习框架,以下图5所示,咱们对输入的图预处理并进行图特征构建。为了克服图的多样性挑战,咱们设计了多个图神经网络,每一个图神经网络对于不一样类型的图有各自的优点。为了克服超短期预算挑战,咱们采用了一个图神经网络结构和超参快速搜索的方法,使用更小的搜索空间以及更少的训练轮数来达到一个更快的搜索速度。为了克服鲁棒性挑战,咱们设计了一个多级鲁棒性模型融合策略。最终,咱们的自动化图学习解决方案能够在较短的时间内对多个不一样图结构数据进行结点分类,并达到鲁棒性效果。接下来,咱们将详细地介绍整个解决方案。

图5 自动化图学习框架

数据预处理与特征构建

有向图处理:大多数谱域GNN方法并不能很好地处理有向图,它们的理论依赖于拉普拉斯矩阵的谱分解,而大多数有向图的邻接矩阵是非对称矩阵,不能直接定义拉普利矩阵及其谱分解。特别的,当一个结点只有入度没有出度时,GCN等方法并不能有效地获取其邻居信息。因为赛题关注于结点分类而不是连接预测等,考虑大多数图结点分类问题,更为重要的是如何有效地提取图的邻居信息,于是咱们将有向图的边进行反转改成无向图,无向图新边的权重与有向图被反转边的权重相等。

特征提取:为了更有效地进行结点的表示学习,提取了一些图的人工特征来让GNN进行更好地表示学习,例如结点的度、一阶邻居以及二阶邻居的特征均值等,咱们对于数值跨度大的特征进行分桶,对这些特征进行Embedding,避免过拟合的同时保证了数值的稳定性。

图神经网络模型

为了克服图的多样性挑战,咱们结合谱域及空域两类图神经网络方法,采用了GCN[11]、TAGConv[12]、GraphSAGE[4]、GAT[5]四个图神经网络模型对多种不一样图结构数据进行更好地表示学习,每一个模型针对不一样类型的图结构数据有各自的优点。

图做为一种非欧式空间结构数据,其邻居结点个数可变且无序,直接设计卷积核是困难的。谱域方法经过图拉普拉斯矩阵的谱分解,在图上进行傅立叶变换获得图卷积函数。GCN做为谱域的经典方法,公式以下所示,其中D是对角矩阵,每一个对角元素为对应结点的度,A是图的邻接矩阵,它经过给每一个结点加入自环来使得卷积函数能够获取自身结点信息,图中的A帽和D帽矩阵便是加自环后的结果,并在傅立叶变换以后使用切比雪夫一阶展开近似谱卷积,使每个卷积层仅处理一阶邻域信息,能够经过堆叠多个卷积层达到多阶邻域信息传播。GCN简单且有效,咱们将GCN应用到全部数据集上,大部分数据集能取得较好的效果。

相较于堆叠多层获取多阶领域信息的GCN方法,TAGConv经过邻接矩阵的多项式拓扑链接来获取多阶领域信息。公式以下所示,能够发现,其经过预先计算邻接矩阵的k次幂,相比GCN能够在训练过程当中实现多阶邻域卷积并行计算,高阶邻域的结果不受低阶邻域结果的影响,从而能加快模型在高阶邻域中的学习。在咱们的实验结果上,其在稀疏图上能快速收敛并相比于GCN能达到一个更好的效果。

相较于谱域方法利用傅立叶变换来设计卷积核参数,空域方法的核心在于直接聚合邻居结点的信息,难点在于如何设计带参数、可学习的卷积核。GraphSAGE提出了经典的空域学习框架,其经过图采样与聚合来引入带参数可学习的卷积核,其核心思想是对每一个结点采样固定数量的邻居,这样就能够支持各类聚合函数。均值聚合函数的公式以下所示,其中的聚合函数能够替换为最大值聚合,甚至能够替换为带参数的LSTM等神经网络。因为GraphSAGE带有邻居采样算子,咱们引入该图神经网络来极大地加速稠密图的计算。在咱们的实验结果上,它在稠密图上的运行时间远小于其余图神经网络,而且能达到一个较好的效果。

GAT方法将Attention机制引入图神经网络中,公式以下所示。它经过图结点特征间的Attention计算每一个结点与其邻居结点的权重,经过权重对结点及其邻居结点进行聚合做为结点的下一层表示。经过Masked Attention机制,GAT能处理可变个数的邻居结点,而且其使用图结点及其邻居结点的特征来学习邻居聚合的权重,能有效利用结点的特征信息来进行图卷积,泛化效果更强,它参考了Transformer引入了Multi-head Attention来提升模型的拟合能力。GAT因为利用告终点特征来计算结点与邻居结点间的权重,在带有结点特征的数据集上表现优异,但若是特征维度多就会使得GAT计算缓慢,甚至会出现内存溢出的现象,咱们须要在特征维度多的状况下对GAT的参数进行搜索限制,要求其在一个参数量更小的空间下搜索。


超参快速搜索

因为超短期预算的挑战,咱们须要设计一个超参快速搜索方法来保证花较少的时间就能够对每一个图模型进行参数搜索,而且在每一个数据集上尽量地使用更多的图模型进行训练和预测。以下图6所示,咱们将参数搜索分为线下搜索和线上搜索两个部分。

图6 超参快速搜索

咱们在线下搜索时,针对每个图模型在多个数据集上使用一个大的搜索空间去肯定图结构和参数边界,保证每一个数据集在这个边界中都有较好的效果。具体地,咱们对有向图/无向图、稀疏图/稠密图、带特征图/无特征图等不一样图类型都对不一样模型的大多数参数进行了搜索,肯定了几个重要超参数。例如对于稀疏图,调整GCN的层数以及TAGConv多项式的阶数,使得其卷积感觉野更大,能够迅速对数据集进行拟合,以使得其能够快速收敛;对于特征特别多的图,调整GAT的卷积层数、多头自注意力头的数量和隐层神经元个数以使得其训练时间在预算以内而且有较好的效果;对于稠密图,调整GraphSAGE的邻居采样,使得其训练能够加速。咱们在线下主要肯定了不一样图模型学习率、卷积层数、隐层神经元个数等这三个重要参数的边界。

因为线上时间预算的限制,咱们经过线下的参数边界肯定了一个小的参数搜索子空间进行搜索。因为时间预算是相对少的,咱们没有充足的时间在参数上作完整的训练验证搜索,所以咱们设计了一个快速参数搜索方法。对于每一个模型的超参空间,咱们经过少许epochs的训练来比较验证集精度从而肯定超参数。以下图7所示,咱们经过16轮的模型训练来选取验证集精度最优的学习率0.003,咱们的目的是肯定哪些超参数可使得模型快速拟合该数据集,而不追求选择最优的超参数,这样既能够减小超参的搜索时间,也能够减小后续模型训练的时间。经过快速超参搜索,咱们保证每一个模型在每一个数据集上能够在较短内肯定超参数,从而利用这些超参数进行每一个模型的训练。

图7 少许epochs模型训练下不一样学习率的验证集精度

多级鲁棒模型融合

因为在该次竞赛中是经过数据集排名平均来肯定最终排名,故而鲁棒性是特别重要的。为了达到鲁棒效果,咱们采用了一个多级鲁棒模型融合策略。以下图8所示,咱们在数据层面进行切分来进行多组模型训练,每组模型包含训练集及验证集,经过验证集精度使用Early Stopping来保证每一个模型的鲁棒效果。每组模型包括多种不一样的图模型,每种图模型训练进行n-fold bagging进行融合来取得稳定效果。不一样种类的图模型因为验证精度差别较大,咱们须要对不一样种类的图模型进行稠密度自适应带权融合来利用不一样模型在不一样数据集上的差别性。最后,咱们再对每组图模型进行均值融合来利用数据间的差别性。

图8 多级鲁棒模型融合

稠密度自适应带权融合:如图4所示,因为某些图数据集较为稀疏且无特征太容易拟合,选手间精度相差小可是排名差别却较大。例如,数据集5模型精度差别仅有0.15%,却致使了十个名次的差别,数据集3模型精度差别有1.6%,却仅致使7个名次的差别,于是咱们对于多种图模型采用了稠密度自适应的融合方式。

融合权重如如下公式所示,其中#edges为边的数量,#nodes为结点数量,则#edges/#nodes表示为图的稠密度,acc(Accuracy)为模型验证集精度,alpha、beta、gamma为超参数,每一个模型的权重由weight肯定。从如下公式能够看出,若是图足够稠密,则咱们只需根据模型精度差别去获得模型权重,无需根据稠密度去自适应调整,参数alpha为是否进行稠密度自适应加权的稠密度临界值;若是图足够稀疏,则模型权重与其验证集精度和数据集的稠密度有关,图越稀疏,则模型权重差别越大。这是因为图越稀疏则模型精度差别性越小,但选手间的排名差别却较大,则咱们须要给予更好的模型更大的权重来保证排名的稳定性。

评估结果

表2所示的是不一样图模型在离线五个图数据集上的测试精度,与图神经网络模型章节所描述的特色一致,GCN在各个图数据集上有较好的效果。而TAGConv在稀疏图数据集一、二、5有更优异的效果,GraphSAGE在稠密图数据集4上取得最好的效果,GAT在有特征的数据集一、二、4中表现较为良好,而模型融合在每一个数据集上都能取得更稳定且更好的效果。

表2  不一样图模型在离线五个图数据集上的测试精度

以下表3所示,咱们的解决方案在每一个图数据集上均达到鲁棒性效果,每一个数据集的排行均保持较领先的水平,并避免过分拟合,从而在平均排行上取得了第一,最终咱们Aister团队在KDD Cup 2020 AutoGraph赛题道上赢得了冠军。

表3 Top 5参赛队伍在最后5个数据集上全部图数据集的平均排行及在每一个图数据集的单独排行

广告业务应用

搜索广告算法团队负责美团与大众点评双平台的搜索广告与筛选列表广告业务,业务类型涉及餐饮、休闲娱乐、丽人、酒店等,丰富的业务类型为算法优化带来很大空间与挑战。在美团丰富的搜索广告业务场景中,结点类型很是丰富,有用户、Query、Ad、地理位置甚至其余细分的组合结点,结点间的边关系也很是多样化,十分适合经过图学习进行建模。咱们在搜索广告的触发模块及点击率预估模块进行图学习的深刻优化,带来了业务效果的提高。

不只结点间具备丰富的边关系,每种结点都有丰富的属性信息,好比Ad门店包含结构化的店名、品类、地址位置、星级、销量、客单价以及点击购买次数等统计信息。所以,咱们的图是一种典型的异构属性图。目前在搜索广告场景下,咱们主要关注包含Query和Ad两类结点的异构属性图。

以下图9所示,咱们构建包含了Query结点和Ad结点的图,应用于触发模块与点击率预估模块。目前,该图使用的边关系主要包括如下几种:

  • Query-Query Session:用户在一次会话中的屡次Query提交;
  • Query-Query Similarity Mining:基于用户浏览点击日志挖掘的Query-Query相关性数据;
  • Query-Ad Click:Query下Ad的点击;
  • Ad-Ad CoClick:在同一次请求或用户行为序列中,两个Ad的共同点击。

图9 异构图的构建

图模型在触发模块主要应用于广告Ad的向量召回,离线构建Ad向量索引,线上实时预估Query向量,经过ANN检索的方式召回相关性较高的广告Ad。相比于传统的基于Bidword的触发方式,基于图模型的向量化召回在语义相关性及长尾流量上有较明显的优点,经过增长召回率显著提高了广告变现效率。

图10所示的是基于图表示多任务学习的触发图网络。咱们采用基于MetaPath的Node2Vec游走生成正例,负例经过全局采样获得。在负例采样时,咱们限定负例的品类必须和正例一致,不然因为在特征方面使用了品类特征,模型会轻易地学到使用品类特征区分正负例,弱化了其余特征的学习程度,致使了模型在同品类结点中区分度很差。而且负采样时,使用结点的权重进行Alias采样,保证与正例分布一致。为了加强泛化能力解决冷启动问题,咱们使用每一个结点对应的属性特征而不使用结点id特征,这些泛化特征能够有效地缓解冷门结点问题,异构图中未出现的结点,也能够根据它的属性特征,实时预估线上新Query或Ad的向量。

同时,对于不一样结点类型应用不一样的深度网络结构,对于Query结点,咱们采用基于字粒度和词粒度的LSTM-RNN网络,Ad结点采用SparseEmbedding+MLP的网络。对于异构边类型,咱们但愿在模型训练过程当中能刻画不一样边的影响。对于同一个结点,在不一样的边上对应单独的一个深度网络,多个边的深度网络生成的Embedding经过Attention的方式进行融合,造成结点的最终Embedding。为了充分利用图的结构信息,咱们主要采用GraphSage中提出的结点信息汇聚方式。在本结点生成向量的过程当中,除了利用本结点的属性特征外,也使用了邻居聚合向量做为特征输入,提高模型的泛化能力。

另外,在美团O2O场景下,用户的访问时刻、地理位置等Context信息很是重要。所以,咱们尝试了图模型和双塔深度模型的多目标联合训练,其中双塔模型使用了用户浏览点击数据,其中包含丰富的Context信息。Query首先通过图模型获得Context无关的静态向量,而后与Context特征Embedding拼接,通过全链接层获得Context-Aware的动态Query向量。

图10 基于图表示学习的触发网络

在点击率预估模块,相较于侧重于相关性建模的触发模块,更侧重于用户个性化的表达。图结构数据可对用户行为序列进行补充、扩建,起到挖掘用户潜在多峰兴趣的效果,从而提升用户点击率。咱们经过在DSIN(Deep Session Interest Network)网络中引入图神经网络,将更为发散的用户兴趣扩充引入Session结构化建模。全局的图结构信息不只有效扩展了用户潜在兴趣点,而且GNN Attention机制能够将目标Ad与图中潜在兴趣Ad信息结合,进一步挖掘出用户的目标兴趣。

如图11所示,对于任意用户行为序列,序列中每个Ad,均可以在Ad图中进行邻接点遍历,获得其兴趣接近的其他Ad表达;用户行为序列是用户的点击序列,可视为用户兴趣的显示表达;通过Ad图拓展获得的序列,是行为序列在图数据中最类似的Ad组成的序列,可视为用户潜在兴趣的表达。用户原始行为序列的建模,目前基线采用DSIN模型;拓展序列的建模,则采用图神经网络的相关方法,利用GNN attention处理获得兴趣向量,并和目标Ad交叉。咱们的实验显示,在DSIN基线模型的基础上,拓展序列还能进一步取得精度提高。

将来,咱们还会进一步探索图模型在点击率模块中的应用,包括基于用户意图的图模型等。

图11 基于图神经网络的个性化预估网络

总结与展望

KDD Cup是同工业界联接很是紧密的一项国际比赛,每一年赛题紧扣业界热点问题与实际问题,并且历年产出的Winning Solution对工业界也都有很大的影响。例如,KDD Cup 2012产出了FFM(Feild-Aware Factorization Machine)与XGBoost的原型,在工业界已经取得了很是普遍的应用。

今年的KDD Cup主要关注在自动化图表示学习以及推荐系统等领域上,图表示学习在近年来既是学术界的热点,也被工业界普遍应用。而AutoML领域则致力于探索机器学习端到端全自动化,将AutoML与图表示学习两大研究热点相结合,有助于节省在图上进行大量探索的人工成本,解决了复杂度较高的图网络调优问题。

本文介绍了搜索广告算法团队KDD Cup 2020 AutoGraph赛题的解决方案,经过对所给的离线数据集进行数据分析,咱们定位了赛题的三个主要挑战,采用了一个自动化图学习框架,经过多种图神经网络的结合解决了图数据的多样性挑战,经过超参快速搜索方法来保证自动化建模方案的运行时间在预算以内,以及采用了多级鲁棒模型融合策略来保证在不一样类型数据集的鲁棒性。同时,也介绍咱们在美团搜索广告触发模块以及点击率预估模块上关于图学习的业务应用,此次比赛也让咱们对自动化图表示学习的研究方向有了更进一步的认知。在将来的工做中,咱们会基于本次比赛取得的经验进一步优化图模型,并尝试经过AutoML技术优化广告系统,解决系统中难以人工遍历的模型优化与特征优化等问题。

参考文献

  • [1] Wu Z, Pan S, Chen F, et al. A comprehensive survey on graph neural networks[J]. IEEE Transactions on Neural Networks and Learning Systems, 2020.
  • [2] Perozzi B, Al-Rfou R, Skiena S. Deepwalk: Online learning of social representations[C]//Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining. 2014: 701-710.
  • [3] Grover A, Leskovec J. node2vec: Scalable feature learning for networks[C]//Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining. 2016: 855-864.
  • [4] Hamilton W, Ying Z, Leskovec J. Inductive representation learning on large graphs[C]//Advances in neural information processing systems. 2017: 1024-1034.
  • [5] Veličković P, Cucurull G, Casanova A, et al. Graph attention networks[J]. arXiv preprint arXiv:1710.10903, 2017.
  • [6] He X, Zhao K, Chu X. AutoML: A Survey of the State-of-the-Art[J]. arXiv preprint arXiv:1908.00709, 2019.
  • [7] Elsken T, Metzen J H, Hutter F. Neural architecture search: A survey[J]. arXiv preprint arXiv:1808.05377, 2018.
  • [8] Zhou K, Song Q, Huang X, et al. Auto-gnn: Neural architecture search of graph neural networks[J]. arXiv preprint arXiv:1909.03184, 2019.
  • [9] Gao Y, Yang H, Zhang P, et al. Graphnas: Graph neural architecture search with reinforcement learning[J]. arXiv preprint arXiv:1904.09981, 2019.
  • [10] Zhang C, Ren M, Urtasun R. Graph hypernetworks for neural architecture search[J]. arXiv preprint arXiv:1810.05749, 2018.
  • [11] Kipf T N, Welling M. Semi-supervised classification with graph convolutional networks[J]. arXiv preprint arXiv:1609.02907, 2016.
  • [12] Du J, Zhang S, Wu G, et al. Topology adaptive graph convolutional networks[J]. arXiv preprint arXiv:1710.10370, 2017.

做者简介

  • 坚强,胡可,金鹏,雷军,均来自美团广告平台搜索广告算法团队。
  • 唐兴元,中国科学院大学。

关于美团AI

美团AI以“帮人们吃得更好,生活更好”为核心目标,致力于在实际业务场景需求上探索前沿的人工智能技术,并将之迅速落地在实际生活服务场景中,完成线下经济的数字化。
美团AI诞生于美团丰富的生活服务场景需求之上,具备场景驱动技术的独特性与优点。以业务场景与丰富数据为基础,经过图像识别、语音交互、天然语言处理、配送调度技术,落地于无人配送、无人微仓、智慧门店等真实场景下,覆盖人们生活的方方面面,用科技助力用户生活质量提高,产业智能化升级乃至整个社会的生活服务新基建建设。

更多信息请访问:https://ai.meituan.com/

招聘信息

美团广告平台搜索广告算法团队立足搜索广告场景,探索深度学习、强化学习、人工智能、大数据、知识图谱、NLP和计算机视觉最前沿的技术发展,探索本地生活服务电商的价值。主要工做方向包括:

  • 触发策略:用户意图识别、广告商家数据理解,Query改写,深度匹配,相关性建模。
  • 质量预估:广告质量度建模。点击率、转化率、客单价、交易额预估。
  • 机制设计:广告排序机制、竞价机制、出价建议、流量预估、预算分配。
  • 创意优化:智能创意设计。广告图片、文字、团单、优惠信息等展现创意的优化。

岗位要求:

  • 有三年以上相关工做经验,对CTR/CVR预估,NLP,图像理解,机制设计至少一方面有应用经验。
  • 熟悉经常使用的机器学习、深度学习、强化学习模型。
  • 具备优秀的逻辑思惟能力,对解决挑战性问题充满热情,对数据敏感,善于分析/解决问题。
  • 计算机、数学相关专业硕士及以上学历。

具有如下条件优先:

  • 有广告/搜索/推荐等相关业务经验。
  • 有大规模机器学习相关经验。

感兴趣的同窗可投递简历至:tech@meituan.com(邮件标题请注明:广平搜索团队)。

阅读更多技术文章,请扫码关注微信公众号-美团技术团队!

相关文章
相关标签/搜索