搜索引擎日益比传统的关键字输入、文档输出的先进,经过关注面向用户的任务提升用户体验,面向用户的任务包括查询建议、搜索个性化、推荐连接。这些以用户为中心的任务被从search query logs挖掘数据支撑。事实上,查询日志抓住用户对世界的认知,是这项应用的关键。web
从查询日志中抽取的语言知识,如实体和关系,对上面的应用来讲有很大的价值。然而目前尚未对从查询日志抽取知识付出不少研究。本论文,咱们首次调查开放的信息抽取基于查询日志。咱们的目标是从查询日志中抽取面向用户的知识,来帮助推理。算法
传统的信息抽取关注抽取结构化的信息,如实体、关系、事实,从非结构化的文本中,使用两个主要的假设:(1)文本资源是句法和语义良构的文本片断,例如新闻语料、网页文档;(2)抽取处理是从一些先验的知识中自举产生的。app
开放的信息抽取(open information extraction, OIE)是刚兴起的信息抽取范式,放宽了假设(2),经过关注领域独立且可扩展的从网页量级的语料中抽取实体和关系,不须要人工输入。ide
在本文中,咱们更进一步,经过避免假设(1),探索search query log对于OIE的实用性。咱们阐述放宽假设(1)和(2)容许咱们适当得实现咱们的目标,抽取面向用户的知识。特别的,咱们假设网页文本和查询日志建模两个不一样的空间:网页文本建模web space,search query log 建模 user space。工具
为了使咱们对基于search query log的OIE假设建模可计算,一些挑战须要解决。首先,咱们须要避免假设(2)从查询日志中挖掘天然发生的信息,咱们须要创建彻底独立于任何先验知识的抽取方法。第二,查询日志不具备句法结构,咱们须要创建鲁棒的抽取方法,不须要关联任何传统的天然语言处理工具,例如POS Tagger。第三,查询日志是简洁的,咱们须要设计有效的抽取的实体表示,这个表示能恰当的抓住查询日志的特性。最后,尽管查询日志没有网页语料那么大,可是仍然是大的数据集,所以咱们的方法必须能够高效处理大数据集。post
咱们介绍基于search query log的OIE的两个阶段的方法。第一个阶段(实体抽取),使用无监督的方法从查询日志中抽取实体,应用基于模式的启发式和统计方法。第二阶段(实体聚类),经过使用聚类方法,利用查询日志的多种信息,在这些实体上创建类别。总结起来,咱们的主要贡献是:大数据
实体抽取是在NLP和基于网页应用中具备重要做用的任务。在历史上,实体抽取被定义为抽取预先定义类别的实例。咱们介绍一个无监督的方法,从大规模开放领域的查询日志中抽取实体。依照咱们的知识,咱们是第一个试图提出一个算法,明确为了同时实现如下两个目标:(1)从查询日志中抽取实体,(2)从开放领域型中抽取实体,没有预先定义的类别。网站
从原始的用户search query logs开始,咱们的方法首先标识候选实体,而后,可靠的实体从候选实体中选出来,经过使用两个基于文本证据的信任得分,经过计算包容过滤。搜索引擎
开放领域的从查询日志中的实体抽取有一些挑战:首先,现有的基于类别决定的方法被证实是领域限定的。第二,咱们从查询日志中抽取实体,查询日志是非典型的语料,查询是短的,而且缺少句法结构,所以消弱了对传统的基于上下文证据和句法特征的方法的使用。google
咱们的生成候选实体的方法是基于简单的观察,用户常常经过拷贝网页存在的短语创建他们的查询。因为这个现象,用户的查询一般包含表层级别的属性,例如大写属性和分词属性。咱们的方法意识到这个观察,经过从用户查询中标识连续的字母大写词。特别的,给定一个查询Q=q1q2…qn,咱们定义一个候选实体E=e1e2…em,E是Q中最大长度的序列,知足在E中的每一个词ei首字母大写。
给定自由的查询,咱们采起的表层级别的技术距离完美很远。例如,很小部分用户只驶入大写字符。咱们须要标识而且抛弃假的实体。方法在下面介绍。
给定一个经过刚才步骤生成的候选字符串E=e1e2…em,咱们给他分配2个信息得分:一个基于网页的表达得分,一个基于查询日志的独立得分。Representation score抓住这个直觉,在E中大小写敏感的Q,在网页数据中也应该有相同的形式。更形式化的,基于网页的表达得分rw(E)经过下面公式计算:
其中,|x|是字符串x在网页语料中出现的次数,r(i)是i的大小写敏感表示,O(E)是字符串E的全部发生集(不是很明白是否是全部大小写状况呢?)。
Standalone score基于观察,一个候选实体E应常常在查询日志中独立出现。事实上,在查询日志中,咱们必须找到Q==E的查询,抓住用户想要知道关于中国实体更多信息的事实。更形式化的,咱们计算基于查询日志的standalone score sq(E) 经过下面的公式:
上面获得了得分rw(E)和sq(E),咱们保留实体知足rw(E)≥τr而且sq(E) ≥τs。在实验中,咱们经过发展集估计了大量的τr和τs,并把τr设置为0.1,τs设置为0.2。
做为最后的步骤,咱们考虑边界检测的问题。一般,咱们可能有大量的重叠的候选,他们只是表示概念,不是实体。这些串可能没有被过滤掉。咱们采用这样的方法过滤:一个字符串彻底包含另外一个实体将被遗弃。
咱们介绍在一写领域开放的实体中使用的聚类方法。在这里的目标是把在用户空间具备类似性的实体聚合到一块儿。为了完成这个目标,咱们首先须要把每一个实体表示成在这个空间的一个特征集合,而后咱们须要使用聚类算法聚合具备类似特征的实体。
上下文特征空间。上下文特征空间的基本假设是,一个实体能够被有效的表示成它在查询日志中所在的上下文特征集。这能够抓住用户对这个实体的观点。
咱们的基于查询日志特征可能显著的不一样于传统的基于网页语料的特征,由于相同的实体可能在两种语料中表现出不一样的表达和观念(也就是说在网页中的用法和在查询中的用法可能不一样)。
为了获得咱们的上下文表示,咱们使用以下的处理。对每一个实体e,咱们首先找出全部包含实体e的查询日志。而后,咱们找到这个实体出现的查询的前缀和后缀(也就是前面的字符串和后面的字符串)。
当全部实体的全部上下文被统计好时,咱们忽略出现次数少于τ的上下文,这样能够避免数据稀疏形成的统计误差(在实验中吧τ设置为200)。咱们而后计算校订的点式互信息(corrected pointwise mutual information,cpmi):(具体能够在论文《discovering word senses from text》中找到)
其中,f(e,c)表示e和c在同一个查询中共同出现的次数,f(e)和f(c)是实体e和上下文c在查询中出现的次数,f(*,*)表示全部词和全部上下文出现的次数(就是用到的查询的数量,具备e或者具备c)。M是校订因子,做用是减小低频实体和低频上下文形成的统计偏差。这样每一个实体都能表示成一个pmi值的向量。注意:咱们的方法不用任何的NLP parsing,由于查询几乎没有句法结构。这样能够保证算法计算复杂度不高,而且能够容易适应其余语言。
点击特征空间。在一个搜索对话期间,用户发起一个搜索,搜索引擎返回一个url列表。搜索的结果是,用户选择那些能够表达他们意图的url。这种交互行为能够被点击捕捉到,这些点击行为会被多数搜索引擎写入日志,做为click-trough data。
咱们基于用户点击行为汇集实体的主要动机是,不一样的查询点击相同的url捕获用户类似的意图。所以,聚合用户点击的相同的url的实体多是类似的。咱们观察发现,网址趋向于为每一个实体贡献一个url。所以经过点击url聚合实体,可能找出同义词(相同实体的不一样表示)和变形体(拼写错误)。为了获得更多的相关聚类,咱们使用base url代替click url。
因为百科类网站(如维基百科)的存在,取base url可能致使不类似的实体放入相同的类别。为了解决这个问题,在咱们的实验中,使用一个stop-list,经过排除前5个基于逆文档频率的url,其中entity被看作是“document”。
实际上,每一个被抽取的实体e被表示为一个大小等同于全部用户点击的base url数量的向量。向量的每一维表示一个url。实体e向量的关于url j的那一维经过以下方法计算:
其中μ是当实体e被做为查询发起,获得的base url集合,w(e,j)是当实体e做为查询发起时,点击url j的次数。
混合特征空间。咱们也实验了混合特征空间,使用的是上下文特征空间和点击特征空间的规范化并集。
聚类阶段使用上面介绍的任意特征空间,经过实体的向量的类似度聚合实体。这个任务的聚类算法须要具有这样的特色:(1)算法必须是高度可扩展的、高效的、能够计算高维度,由于查询的数量和特征向量的维数是很大的;(2)咱们事先不知道类别的数目。
任何知足上面两个要求的聚类算法均可以被采用。在如今的实验中,咱们采用CBC,最早进的聚类算法,已经被显示在不少语言任务中优于K-means算法。咱们使用一个高度可扩展的Map Reduce CBC,能够保证鲁棒的高效的内存使用。CBC介绍略。
先简单介绍一个使用的数据
查询日志:随机选择的100百万,在2009年前3个月,被搜索引擎收集的匿名的查询,和查询的频数。咱们使用月来拆分数据集JN,FB,MR。这些数据用来抽取实体、生成上下文和点击特征空间。
网站文档:搜索引擎爬取的500百万网页。这些数据用来实现基于网页的特征。
评价方法:咱们实现两组实验,一个来评估准确性、一个来评估覆盖性。
对于准确性实验,咱们为买个方法随机均匀选择400个实体,把它们分给两个专家级的标主工做者,它们必须裁定一个实体是否正确。
对于覆盖性实验,咱们关注在查询日志中频繁出现的5个类别的实体:演员、运动员、城市、疾病和电影。对于每一个类别,咱们基于维基百科生成一个表明gold set。
比较方法:咱们使用MR数据集来比较下面的实体抽取系统:
这个实验的目标是双重的:(1)估计聚类算法的内在质量;(2)证明咱们开始作的假设是否正确。
评价方法:许多已有的评价标准都须要gold standard data set。由于在咱们的状况中,这样的数据集不可用并且难以构造。咱们使用一个认证处理。咱们首先从QL-FULL中选择一个随机n个实体组成的集合,随机经过它们在日志中的频数产生。对每一个在样本集中的实体e,咱们推出一个随机的由k个和e属于同一个类别的实体组成的列表。在咱们的实验中,n=10,k=20。而后,咱们把这些交给雇佣的编辑者,e和与e同类的k和实体。编辑者须要判断每对同类实体是正确的仍是错误的。若是实体ei和实体e在用户的视觉上是类似或者相关的。这些编辑者的一致性超过一个阈值0.64。附加的,咱们询问编辑者实体e和ei之间的关系。
比较方法:使用下面的方法
实验结果
能够看出使用点击特征空间是颇有效的。上下文特征空间不如点击空间和网页空间。
在本章中,咱们探索咱们提出模型的两个实际的应用。为新闻推荐相关实体和付费搜索提供关键字生成。
与新闻相关的网站一般经过可能感兴趣的新闻列表帮助用户探索新闻,为了基于当前文章用户的兴趣的深刻阅读。特别的,潜在的问题是标识新闻中的主要概念,基于这个概念提供这篇文章中没有说起的相关概念。一些方法被提出来为了(a)有效的在文章中标识主要概念(b)推荐相关概念。咱们的目标在这里是检验咱们的实体聚类是否能成功解决(a)和(b),而且使用户知足。
数据集创造:咱们从2009年的新闻中随机选取3百万篇文章。对于每种方法,咱们生产一个50个新闻文章样本,并保证他们至少含有2个在一个类别中的实体。对每篇文章,咱们提出和这两个实体属于同一类别的前10的实体。
评价和测量:咱们估计方法是生成相关的实体使用准确率:给定一篇文章和相关的一对实体,咱们让两个标注人标记相关的实体。若是一个用户对这篇文章中的实体感兴趣,那么他可能会对推荐的实体感兴趣。标注人的一致性在50个推荐中的kappa值为1.78。准确率是经过相关的推荐除以总的推荐数获得的。
对比:使用CL-CTX, CL-CLK,CL-HYB和Web方法对比。
结论:如图。
付费搜索占不少搜索公司年收入的大部分。在付费搜索中,在线广告商对明确的关键字(叫作 bidterms)投标,经过一个搜索公司的专用平台的拍卖会。投标的获胜者将被容许把他们的广告连接到搜索公司的搜索结果页面,当bidterms被查询。
相似google和yahoo的公司投入努力和金钱,来提高他们的投标平台,为了吸引更多的广告商来竞拍。Bidterm建议是这些努力的相关例子。在bidterms建议中,广告商键入一个种子关键字,表达他的广告的意图,而后这个工具提供一个建议的关键字列表,列表中的关键字能够竞拍。
对一个种子生成竞拍建议是自动的,而且在搜索公司已经被获得了关注。全部的关键字建议技术能够被分为3个类别:近邻搜索(Proximity search)方法用种子查询一个搜索引擎,而且在结果页面中抽出n-grams在种子的近邻中。查询日志(Query-log)方法,典型的观察过去频繁的包含种子的查询,而且把他们做为建议,此种方法是最常使用的The Google Adwords Tool和Yahoo Search Marketing Tool。Meta-tag spidering(媒体标记爬取)方法使用种子查询一个搜索引擎,而且在最优排名的页面中抽取媒体标签做为建议。
现存的对于关键字生成的工具都是高准确率的。可是都是只探索包含种子的建议,它们趋向于忽略其余的不明显的建议。这些不明显的建议有多是给广告商不贵的可是仍然是高度相关的建议。
这个实验的目标是估计不一样方法的建议的质量,对一些大众化的seed bidterm。
数据集构造:为了构建种子集合,咱们使用Google skTool database。这个工具提供一个大众的bidterm的列表。咱们选择3个话题的列表:旅游业,交通业和电子客户。对每一个话题,咱们随机选择5个种子,这些种子也在QL-FULL中。
评价和测量:咱们使用准确率和不明显度。准确率是经过询问两个有经验的人是否相关,若是一个广告商愿意选择建议竞拍。不明显度简单的计数有多少个建议不包含种子自己,经过简单的字符串匹配和简单的词干来计算。
比较:CL-CTX, CL-CLK, CL-HYB和Web。还有最早进的两个系统Google AdWords (GOO) and Yahoo Search Marketing Tool (YAH)。
略。