这篇文章是阅读AMiner《2018天然语言处理研究报告》前几篇内容整理所得。数据库
天然语言处理就是要计算机理解天然语言,计算机要理解天然语言文本的意义,最后能以天然文本形式来表达意图。处理过程主要是理解、转化、生成。网络
天然语言的理解和分析是一个层次化的过程,许多语言学家把这一过程分为五个层次, 能够更好地体现语言自己的构成,五个层次分别是工具
语音分析、词法分析、句法分析、语义分析和语用分析。学习
天然语言处理的研究能够分为基础性研究和应用性研究两部分,语音和文本是两类 研究的重点。测试
ACL、EMNLP、NAACL、COLING 4个会议是天然语言处理最重要的4个会议。搜索引擎
1950年“图灵测试”到70年代前,这时的天然语言处理停留在理性主义思潮阶段,以基于规则的方法为表明。google
70年代后互联网高速发展,天然语言处理思潮由经验主义向理性主义过渡,基于统计的方法逐渐代替了基于规则的方 法。人工智能
从 2008 年到如今,在图像识别和语音识别领域的成果激励下,人们也逐渐开始引入深度学习来作天然语言处理研究。翻译
天然语言处理的基础研究方面,天然语言的基础技术包括词汇、短语、 句子和篇章级别的表示,分词、句法分析和语义分析以及语言认知模型和知识图谱等。视频
词法分析
主要任务是词性标注和词义标注。
句法分析
主要任务是判断句子的句法结构和组成句子的各成分,明确它们之间的相互关系。
语义分析
主要任务是根据句子的句法结构和句子中每一个实词的词义推导出可以反映这个句子意义的形式化表示。
篇章分析
将研究扩展到句子的界限以外,主要任务是对段落和整篇文章进行理解和分析。
知识图谱
表示知识,描述客观世界的概念、实体、事件等之间关系的一种表示形式。知识图谱在表现形式上与语义网络比较相似,不一样的是,语义网络侧重于表示概念与概念之间的关系,而知识图谱更侧重于表述实体之间的关系。如今的知识网络被用来泛指大规模的知识库。
除此以外,天然语言的基础研究还涉及词义消歧、指代消解、命名实体识别等方面的研究。
机器翻译
指运用机器,经过特定的计算机程序将一种书写形式或声音形式的天然语言,翻译成另外一种书写形式或声音形式的天然语言。按照媒介能够将机器翻译分为文本翻译、语音翻译、图像翻译以及视频和 VR 翻译等。
信息检索
从相关文档集合中查找用户所需信息的过程。先将信息按必定的方式组织和存储起来,而后根据用户的需求从已经存储的文档集合当中找出相关的信息,这是广义的信息检索。信息检索包括“存”与“取”两个方面,对信息进行收集、标引、描述、组织,进行有 14 序的存放是“存”。按照某种查询机制从有序存放的信息集合(数据库)中找出用户所需信息或获取其线索的过程是“取”。搜索引擎能够当作是一种特殊且重要的信息检索系统。
情感分析
又称意见挖掘,是指经过计算技术对文本的主客观性、观点、情绪、极性的挖掘和分析,对文本的情感倾向作出分类判断。情感分析是天然语言理解领域的重要分支,涉及统计学、语言学、心理学、人工智能等领域的理论与方法。情感分析在电商评价、互联网舆情分析、选举预测等地方发挥重要做用。
信息抽取
主要是指从文本中抽取出特定的事实信息。与之关系密切的是信息检索,信息检索主要是要从大量的文档中找到用户所须要的文档,而信息抽取是获取用户感兴趣或所须要的事实信息,这就须要对文本有深刻的理解和分析。信息检索的结果能够做为信息抽取的范围,提升效率,信息抽取用于信息检索能够提升检索质量,更好地知足用户的需求。
下面列举的是天然语言处理方向研究较好的一些机构。
国外: google、微软亚洲研究院、Facebook
国内:百度、阿里、腾讯、京东、科大讯飞
从国家来看,美国是天然语言处理研究学者汇集 最多的国家,英国、德国、加拿大和意大利紧随其后;从地区来看,美国东部是天然语言处理人才的集中地,而西欧、美国西部等其余先进地区也吸引了大量天然语言处理的研究者。