[NLP]文本摘要介绍

1、摘要的主要分类算法

文本摘要:从数据上来看,分为利用无监督数据(自动摘要)和有监督数据两种方法机器学习

文本摘要:从获取方法上看,分为抽取式摘要(从原文中抽取多个句子组成概要)和生成式摘要(先是天然语言理解进行篇章理解,而后用天然语言生成来生成摘要​)两种方法。svg

深度学习模型:BertSum,XLNet等。post

2、抽取式摘要方法学习

一、基于无监督的抽取方法:page-rankspa

主要处理流程:先构造图(其中一个句子是一个结点,结点之间的边是句子之间的关系),而后利用page-rank算法计算每一个句子的得分score,最后根据score获取top 3/5个句子做为最终生成的摘要。blog

构造图的方法:将全部的句子转换成向量(假设有100个句子),根据简单的公式计算(如余弦类似度,欧式距离)等计算句子之间的类似度,最后获得一个句子类似度矩阵(100*100)。深度学习

注:Page-rank:是一张有向图,结点是一个网页,边是两个网页之间的关系(这个关系是可进可出的,好比说A,B两个网页,A指向B表示根据B能够获得A的网址,或者说B比A更高一个层级是更重要的网页),每一个结点的得分是指向它的结点的数量以及指向它的结点的权重两个方面来肯定。class

具体计算过程以下:方法

假设有三个点,A指向B,B指向C,C指向A和B,分别计算A、B、C的score。(设d=0.85)

 

 

 迭代算法:不断迭代计算A、B、C的得分,当全部得分再也不变化时,则迭代中止。


二、基于有监督的抽取式摘要方法:根据训练数据,提取特征向量,构造机器学习模型。

3、生成式摘要方法

基于有监督的生成式摘要方法:使用深度学习模型,如seq2seq模型等来作。

相关文章
相关标签/搜索