文本自动摘要概述

1.文本自动摘要的分类优化

此处只介绍两种,一种是依据输入文本数量划分,一种是摘要和原文的关系划分。排序

根据输入文本的数量划分,文本摘要技术能够分为单文档摘要和多文档摘要;文档

根据文摘和原文的关系划分,能够分为摘录式(extraction)文摘和生成式(abstraction)文摘。摘录型文摘由原文中抽取出来的片断组成,理解型文摘是对原文只要内容从新组织后造成的。io

2.文本自动摘要的基本步骤扩展

通常来讲,自动文摘过程包括三个基本步骤:方法

(1)文本分析过程:对原文进行分析处理,识别出冗余信息;im

(2)文本内容的选取泛化过程:从文档中辨认重要信息,经过摘录或归纳的方法压缩文本,或者经过计算分析的方法造成文摘表示;技术

(3)文摘的转换生成过程:实现对原文内容的重组或者根据内部表示生成文摘,并确保文摘的连贯性统计

  文摘的输出形式依据文摘的用途和用户需求肯定。不一样的系统所采用的具体实现方法不一样,所以在不一样的系统中,上述几个模块所处理的问题和采用的方法也有所差别。时间

3.文本自动摘要的基本问题

在单文档摘要系统中,通常都采起基于抽取的方法。而对于多文档而言,因为在同一个主题中的不一样文档中不可避免地存在信息交叠和信息差别,所以如何避免信息冗余,同时反映出来自不一样文档的信息差别是多文档文摘中的首要目标,而要实现这个目标一般觉得着要在句子层如下作工做,如对句子进行压缩,合并,切分等。另外,单文档的输出句子通常是按照句子在原文中出现的顺序排列,而在多文档摘要中,大多采用时间顺序排列句子,如何准确的获得每一个句子的时间信息,也是多文档摘要须要解决的一个问题。

正如前面所说,自动文摘过程包含三个基本步骤,实现这些基本步骤的方法可使基于句子抽取的,也能够是基于内容理解的。不管哪一种方法,都必须面对三个关键问题:

(1)文档冗余信息的识别与处理

(2)重要信息的辨认

(3)生成文摘的连贯性

4.抽取式摘要优化点

(1)特征提取过程当中,除了特征词的提取,还能够提取其余的基本要素来肯定句子的重要性。如,句子的基本要素经过三元组<中心词,修饰,关系>来描述,其中中心词为该三元组的重要组成部分。

(2)在提取关键词以前,去掉停用词,而后在你计算词频等信息。为了扩展相同主题下可能出现的同义词现象,能够考虑利用同义词或者替换词、别称等信息提升词频统计的准确性。

(3)经过橘子的类型,对句子进行一次筛选。如,通常状况下,划分句子的时候能够记录句子出现的位置信息,在段落的开头或者结尾会有较大可能出现关键词。句型方面,陈述句通常比感叹句或者疑问句更有可能出现关键词。

(4)针对多文本输入的状况,在关键词提取中,可使用频繁项集挖掘,并对频繁项集挖掘获得的词项赋予较高权重。

为了减小摘要句子之间的冗余度,能够经过计算句子之间的类似度减小冗余句子,具体过程以下:

(1)将句子按照其重要性由高到低排序

(2)抽取重要性较高的句子Si

(3)选取候选句子Si后,调整剩下的每一个待选句子的重要性。待选句子Sj的重要性按照公式:Score(Sj)=Score(Sj)-Sim(Si,Sj)*Score(Si)

(4)剩下句子的重要度按照从高到低的顺序进行排序,选取重要度较高的句子。

(5)重复步骤三、4,直至摘要足够长为止。

相关文章
相关标签/搜索