NLP相关资源

一 NLP相关资源站点

  1. Rouchester大学NLP/CL会议列表
    一个很是好的会议时间信息网站,将天然语言处理和计算语言学领域的会议,按照时间月份顺序列出。php

  2. NLPerJP
    一个日本友好人士维护的网站,常常对NLP近来热点进行评论,能够受到启发。html

  3. 初学者如何查阅天然语言处理(NLP)领域学术资料
    初学者如何查阅NLP领域学术资料,做者为清华大学计算机系助理研究员刘知远。另外,刘还曾经翻译过《机器学习那些事儿》一文,原文刊登在ACM Communication上,刘翻译后发表在计算机学会通信上。机器学习那些事儿
    另外,一个问题是,文本如何进行特征选择,特别是对于摘要任务中的以句子为单位时,如何进行向量空间表示,能够参考这一篇,实在不行的话,能够逐个尝试,从tf到tf*idf,从bool到完整,待尝试。机器学习

  4. 52nlp
    “我爱天然语言处理”网站,属于52系列,上面有适合入门时候的资料。主要包含两块内容,“资源”和“求职招聘”以及“课程图谱”。 学习

二 Summarization摘要任务

看过论文就知道,在Summarization摘要任务上近些年的领军任务主要有: 网站

  1. 万小军
    此人生于1979年,至今仅35岁不到,本科硕士博士都在PKU完成。google

    其硕士论文:一个用于中文新闻主题检测与追踪的原型系统lua

    博士论文:基于文档结构关系的类似搜索与自动摘要技术翻译

  2. 2000年7月在北京大学信息管理系获理学学士, 2003年7月在北京大学计算机科学技术系获理学硕士学位,2006年7月在北京大学信息科学技术学院获博士学位,博士论文获北京大学优秀博士论文奖。同年加入北京大学计算机科学技术研究所任助理研究员,2007年8月晋升为副研究员。2008年获北京大学宝洁奖教金,同年入选教育部新世纪优秀人才支持计划与北京市科技新星计划(B类),2010年获北京大学王选青年学者奖。
    此人在Summarization任务上07年逆天,一次性在高水平会议上发表6篇论文。
    目前已晋升为教授(研究员)。领导ICST北大计算技术研究所的LCWM(语言计算与互联网挖掘研究组)。
    上述研究组在Summarization任务下成就显然。 htm

  3. LiTao
    中文名大概是 李涛,目前供职于FIU(佛罗里达国际大学),在Summarization任务上也是逆天存在,超过20+高水平论文。对象

  4. Li Wenjie
    目前供职于 香港理工大学PolyU of HK。夏老师曾在04~06在港中文作过研究,与其有过合做。

三 我对Summarization任务的思考

  1. MDS方向跨学科

    首选,(Multi-)Document Summarization任务是跨学科的。从几个方面来看。第一,从处理的数据对象Data Object来看,属于Document 或者Text,属于对语言的载体-文本进行的处理,并且是用一些偏统计的方法,所以属于NLP/CL大类。此类相关的高水平会议很多。第二,从实现的方法Method来看,使用了一些包括图论,以聚类分类为表明的机器学习方法,所以能够划归到ML/AI大类。第三,从“数据”流Data Flow来看,在数据流上属于一种逆向生成,即从原始大量数据中,在有限的篇幅侠找出“重要且有价值”的信息,所以能够划归到DM大类。第四,从实用的大环境Application Envrionment来看,随着现今互联网浪潮,对互联网上的信息处理具备实际的应用价值,所以能够划归到Web大类。

  2. 怎样出成果

    首先必须感叹,上述三人的勤奋与努力,在Summarization任务上著做等身。但做为一个具备逻辑思惟的人,必须能看到事物的另外一面。第一,科学研究并非一蹴而就的。若是”论文数量“来看,Summarization任务出现了那么多论文,但从“应用”角度看,除了被Yahoo收购的应用Summly以外,并无出现有价值的应用。科学论文的的评价标准时有限的,例如在Summarization任务中,自从Lin在2004年推出ROUGE标准,若是想让同行承认,就必须采用其标准。因而后来人前赴后继地陷入追求ROUGE得分高的目标中。当然,ROUGE得分高至少能表明方法必定程度上是有效的。可是否ROUGE高就绝对说明方法是最优的呢?彻底不是。我猜想,从评审人或者Reviewer的角度来看,ROUGE得分只是一个载体,或者说是入门条件,当达到入门条件以后,他会考量你的工做是否介绍或者让人启发出“新的想法或观点”。学术活动例如国际会议的召开,老是求新的,要么是“新结果”,你的方法与别人很相似,或者稍加改进,而后从结果上体现出来有进步。要么是“新方法”,若是结果知足入门条件以后,从方法上彻底与人不一样,也算新,不过这时候须要必定程度的“自圆其说”,可以说明在结果上不太具备优越性可是在方法上足够有新意。 第二,评测标准真的对么首先,ROUGE的出现实现了在Evaluation上从“主观评测”到“量化”的飞跃。在04年以后的若干年,这种便于量化的方法为不少研究者带来了便利,更确切来讲,为相关研究者带来“方向”。人们想作一件研究,却不太明白方法究竟好很差。若是有一个量化准则存在,同行之间也就少了猜忌。可是,从04年到14年,这种准则的有效性其实是临近瓶颈的。例如在GenericMDS任务上,至今最优的方法在ROUGE-1上能够达到0.395+。而背后的事实是,有人作出了理论上的推测,即使是人工摘要,因为问题自己存在不太一致的主观性,不太可能超过0.41。所以,对于源于不一致主管的工做任务来讲,在量化评测下,达到较为优秀便可,在其余方面说明“自圆其说”优越性便可。

相关文章
相关标签/搜索