玻森新闻自动摘要算法介绍

自动摘要(或摘要技术Automatic Summarization),顾名思义,是指从单篇或者多篇文章中,摘取要点来归纳文章大意的技术。它在机器学习和数据挖掘中有着重要的地位。html

在这篇文章中,将要详细谈一谈自动摘要算法实现,以及玻森进行的优化。(对于自动摘要概念有兴趣想深刻了解的读者能够自行搜索,该篇文章中在这方面不做详细介绍。)算法

自动摘要能够分为笼统式和查询式。因为查询式摘要的应用场景较为特定,笼统式摘要成为现阶段主流,它也能在很大程度上知足人们对摘要的需求。所以玻森的新闻摘要是笼统式抽取摘要。机器学习

玻森采用的是最大边缘相关模型(Maximal Marginal Relevance)的一个变种。MMR是无监督学习模型,它的提出是为了提升信息检索(Information Retrieval)系统的表现。例如搜索引擎就是目前你们最经常使用的信息检索系统。你们可能常常会碰到,对于咱们输入的一个关键词,搜索引擎一般会给出重复的或者内容太接近的检索的状况。为了不这个现象,搜索引擎能够经过MMR来增长内容的多样性,给出多方面考虑的检索结果,以此来提升表现。学习

这样的思想是能够被借鉴用来作摘要的,由于它是符合摘要的基本要求的,即权衡相关性和多样性。不难理解,摘要结果与原文的相关性越高,它就接近全文中心意思。而考虑多样性则使得摘要内容更加的全面。很是的直观和简单是该模型的一个优势。优化

相比于其余无监督学习方法,如TextRank(TR), PageRank(PR)等,MMR是考虑了信息的多样性来避免重复结果。TR,PR是基于图(Graph)的学习方法,每一个句子当作点,每两个点之间都有一条带权重(Weighted)的无向边。边的权重隐式定义了不一样句子间的游走几率。这些方法把作摘要的问题当作随机游走来找出稳态分布(Stable Distribution)下的高几率(重要)的句子集,但缺点之一即是没法避免选出来的句子相互之间的类似度极高的现象。搜索引擎

而MMR方法能够较好地解决句子选择多样性的问题。具体地说,在MMR模型中,同时将相关性和多样性进行衡量。所以,能够方便的调节相关性和多样性的权重来知足偏向“须要类似的内容”或者偏向“须要不一样方面的内容”的要求。对于相关性和多样性的具体评估,玻森是经过定义句子之间的语义类似度实现。句子类似度越高,则相关性越高而多样性越低。spa

自动摘要的核心即是要从原文句子中选一个句子集合,使得该集合在相关性与多样性的评测标准下,得分最高。数学表达式以下。
图片描述
须要注意的是,D,Q,R,S都为句子集,其中,D表示当前文章,Q表示当前中心意思,R表示当前非摘要,S表示当前摘要。orm

能够看出,在给定句子类似度的状况下,上述MMR的求解为一个标准的最优化问题。可是,上述无监督学习的MMR所得摘要准确性较低,由于全文的结构信息难以被建模,如段落首句应当有更高的权重等。为了提升新闻自动摘要的表现,玻森在模型中加入了全文结构特征,将MMR改成有监督学习方法。从而模型即可以经过训练从“标准摘要”中学习特征以提升准确性。htm

玻森采用摘要公认的Bi-gram ROUGE F1方法来判断自动生成的摘要和“标准摘要”的接近程度。通过训练,玻森在训练数集上的表现相对于未学习的摘要结果有了明显的提高——训练后的摘要系统F1提升了30%。值得一提的是,在特征训练中,为了改善摘要结果的可读性,玻森加指代关系特征,使得模型表现提升了8%。索引

摘要引擎的具体调用API能够参见文档

相关文章
相关标签/搜索