自动摘要学习计划（英语）

时间 2019-11-18

标签自动摘要学习计划英语繁體版

原文原文链接

英语单文档自动摘要php

（1）针对单文档的自动摘要包java

　　英语的单文档摘要目前在国内外已至关成熟，所以在网上可找到许多相关的文档和源代码包等。python

sumy（安装条件：Python 2.7 / 3.3 +和pip （ Windows ， Linux ））　
　　　用于从HTML页面或纯文本提取自动摘要的简单库和命令行实用程序。该软件包还包含用于文本摘要的简单评估框架。包括：linux
- Luhn - heurestic方法，参考
- Edmundson 基于之前的统计研究的heurestic方法，参考
- 潜在语义分析（Latent Semantic Analysis），LSA - 算法之一来自http://scholar.google.com/citations?user=0fTuW_YAAAAJ&hl=zh-CN我认为做者如今使用更先进的算法。 Steinberger，J. aJeĹľek，K. Using latent semantic an and summary evaluation。在ISIM '04。 2004.S.93-100 。
- LexRank - 由算法PageRank和HITS 引用的无监督方法
- TextRank - 我在互联网上找到的一些资源的组合。我真的不记得来源。可能维基百科和一些论文在谷歌的第1页。
- SumBasic - 在文献中常常用做基准的方法。资料来源：阅读SumBasic
- KL-Sum - 贪婪地将句子添加到摘要中的方法，只要它减小KL发散。资料来源：阅读KL-Sum
　　这里有一些其余摘要：git
- - https://github.com/thavelick/summarize/ - Python，TF（很是简单）
  - Reduction - Python，TextRank（简单）
  - Open Text Summarizer - C，TF没有规范化
  - 简单的程序总结文本 - Python，TF没有规范化
  - 计算语言学导论 - Java，LexRank
  - Sumtract：UW LING 572的第二个项目 - Python
  - TextTeaser - Scala
  - PyTeaser - Python中的TextTeaser端口
  - Automatic Document Summarizer - Java，Bipartite HITS（无源）
  - Pythia - Python，LexRank＆Centroid
  - SWING - Ruby
  - Topic Networks - R，主题模型和二分图
  - Almus: Automatic Text Summarizer - Java，LSA（无源代码）
  - Musutelsa - Java，LSA（老是冻结）
  - http://mff.bajecni.cz/index.php - C ++
  - MEAD - Perl，各类方法+评估框架
　　　详情见网址https://pypi.python.org/pypi/sumy。sumy在python中还有API可调用。github

　　　此外，有关sumy的源代码也可在https://github.com/miso-belica/sumy上找到。web
11种最好的开源自动摘要工具包，详情请见http://www.findbestopensource.com/tagged/summarization。该网站提供了11种最好的开源自动摘要工具包，分别有TextTeaser、Fast-summarizer、Bubble-summarization、Pivotquery、Auto-summarization、Icsisumm、Acrs、Alpha-sum、Unbproteus、Textsum-spring11、Socialskip.
算法

英语多文档自动摘要spring

（1）针对多文档的自动摘要包app

PKUSUMSUM（java）支持单文档，多文档以及主题相关的多文档自动摘要。

　　　北大万小军老师课题组推出文档自动摘要小工具PKUSUMSUM，集成多种无监督摘要提取算法，支持多种摘要任务与多种语言，采用Java编写，代码彻底开源。说明文档可见http://www.icst.pku.edu.cn/lcwm/wanxj/pkusumsum.htm。此外，该工具包源码也可在github（https://github.com/PKULCWM/PKUSUMSUM）上找到。其包含的算法有：

Method	Single-document summarization	Multi-document summarization	Topic-based Multi-document summarization
Coverage	-	Yes	Yes
Lead	Yes	Yes	Yes
Centroid [1]	Yes	Yes	Yes
TextRank [2]	Yes	Yes	-
LexPageRank[3]	Yes	Yes	-
ILP [4]	Yes	Yes	-
Submodular1 [5]	Yes	Yes	-
Submodular2 [6]	Yes	Yes	-
ClusterCMRW[7]	-	Yes	-
ManifoldRank[8]	-	-	Yes

因项目须要，本人及其项目组成员用java改写的代码也即将上传到github上，网址稍后会公布。（传懋负责）

　　2. Sumbasic算法（python语言，2005年）

　　相关代码见https://github.com/hardik-vala/sum-basic。

　　在该份代码中，SumBasic有三种算法版本：

　　（1）leading版本：经过在第一个文档中引用句子来总结文档，直到达到字限制。

　　（2）original版本：使用原始SUMBASIC算法汇总文档。原始SUMBASIC算法描述以下：

　　SumBasic算法是由Nenkova和Vanderwende于2005年提出的基于词频的多文档抽取式文摘方法[1].他们认为文档集合中非停用词的相对频率能够较为准确地反映该词是否出如今专家文摘中.在SumBasic算法中每一个句子S都赋予一个反映它所包含的词频的权值:

.(1)

式中:为一元几率观察值,使用最大似然估计计算时近似等于该词在语料库中出现次数占总词数的比例.

根据式(1)计算句子的分值,并按分值将句子由高到低添加到文摘中,直到达到限制的文摘字数,由该方法获得的模型记为Unigram.在SumBasic算法中已经选为文摘的句子中单词的几率变为原几率的平方:,即选中单词的几率逐渐变小,从而下降文摘的冗余度.虽然SumBasic算法的思想很是简单,但取得了不错的效果[2].

　　（3）simplified版本：简化的SUMBASIC算法，它保持字数不变，不包含非冗余更新。

引用文献：

[1] NENKOVA A, VANDERWENDE L.The impact of frequency on summarization:MSR-TR-2005-101[ R] .Redmond, USA:MicrosoftResearch, 2005

[2]Haghighi A, Vanderwende L. Exploring content models for multi-document summarization[C]// Human Language Technologies: the 2009 Conference of the North American Chapter of the Association for Computational Linguistics. Association for Computational Linguistics, 2009:362-370.

1. Linux 计划任务摘要
2. 考研英语复习计划
3. 学习计算机英语
4. mongodb的查询语句学习摘要
5. 移动端实习生菁英计划
6. JAVA学习摘要
7. FreeRTOS学习摘要
8. Python学习摘要
9. hadoop学习摘要
10. neo4j学习摘要
更多相关文章...
• Swift 自动引用计数（ARC） - Swift 教程
• 您已经学习了 XML Schema，下一步学习什么呢？ - XML Schema 教程
• Kotlin学习（一）基本语法
• Tomcat学习笔记（史上最全tomcat学习笔记）