天然语言处理(简称NLP),是研究计算机处理人类语言的一门技术,包括:网络
1.句法语义分析:对于给定的句子,进行分词、词性标记、命名实体识别和连接、句法分析、语义角色识别和多义词消歧。机器学习
2.信息抽取:从给定文本中抽取重要的信息,好比,时间、地点、人物、事件、缘由、结果、数字、日期、货币、专有名词等等。通俗说来,就是要了解谁在何时、什么缘由、对谁、作了什么事、有什么结果。涉及到实体识别、时间抽取、因果关系抽取等关键技术。学习
3.文本挖掘(或者文本数据挖掘):包括文本聚类、分类、信息抽取、摘要、情感分析以及对挖掘的信息和知识的可视化、交互式的表达界面。目前主流的技术都是基于统计机器学习的。编码
4.机器翻译:把输入的源语言文本经过自动翻译得到另一种语言的文本。根据输入媒介不一样,能够细分为文本翻译、语音翻译、手语翻译、图形翻译等。机器翻译从最先的基于规则的方法到二十年前的基于统计的方法,再到今天的基于神经网络(编码-解码)的方法,逐渐造成了一套比较严谨的方法体系。翻译
5.信息检索:对大规模的文档进行索引。可简单对文档中的词汇,赋之以不一样的权重来创建索引,也可利用1,2,3的技术来创建更加深层的索引。在查询的时候,对输入的查询表达式好比一个检索词或者一个句子进行分析,而后在索引里面查找匹配的候选文档,再根据一个排序机制把候选文档排序,最后输出排序得分最高的文档。排序
6.问答系统: 对一个天然语言表达的问题,由问答系统给出一个精准的答案。须要对天然语言查询语句进行某种程度的语义分析,包括实体连接、关系识别,造成逻辑表达式,而后到知识库中查找可能的候选答案并经过一个排序机制找出最佳的答案。索引
7.对话系统:系统经过一系列的对话,跟用户进行聊天、回答、完成某一项任务。涉及到用户意图理解、通用聊天引擎、问答引擎、对话管理等技术。此外,为了体现上下文相关,要具有多轮对话能力。同时,为了体现个性化,要开发用户画像以及基于用户画像的个性化回复。事件