ES-天然语言处理

时间 2019-11-13

标签天然语言处理繁體版

原文原文链接

前言

天然语言处理（Natural Language Processing）是计算科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用天然语言进行有效通讯的各类理论和方法。天然语言处理是一门融语言学、计算机科学、数学于一体的科学。所以，这一领域的研究将涉及天然语言，即人们平常使用的语言，因此它与语言学的研究有着密切的联系，但又有重要的区别。天然语言处理并非通常地研究天然语言，而在于研制能有效地实现天然语言通讯的计算机系统，特别是其中的软件系统。于是它是计算机科学的一部分（可耻的粘贴）。
既然NLP是人工智能的一部分，那么咱们就来简单说说人工智能。算法

人工智能

人工智能的目标

推理
自主学习 & 调度
机器学习
天然语言处理（NLP）
计算机视觉处理
机器人
通用智能

人工智能三大阶段

机器学习：只能系统使用一系列算法从经验中进行学习
机器智能：机器使用的一系列从经验中进行学习的高级算法，例如深度神经网络（深度学习），人工智能目前也处于现阶段
机器意识：不须要外部数据就能从经验中自我学习。

人工智能、机器学习、深度学习的关系

机器学习：一种实现人工智能的方法
深度学习：一种实现机器学习的技术

人工智能的类型

狭义人工智能（ANI）：它包含基础的、角色行任务。例如小爱、Siri、Alexa这样的聊天机器人，我的助手完成的任务。
通用人工智能（AGI）：通用人工智能包含人类水平的任务，它涉及到机器的持续学习。
强人工智（ASI）：强人工智能代指比人类更聪明的机器。

怎样让机器智能化

天然语言处理
知识表示
自动推理
机器学习

NLP

NLP的目标

NLP的目标是让计算机在理解语言方面像人类同样智能，最终的目标是弥补人类交流（天然语言）和计算机理解（机器语言）之间的差距。安全

为何须要NLP

有了NLP，就可能完成自动语音、自动文本的编写等任务。让咱们从大量的数据中解放出来，让计算机去执行。
这些任务包括自动生成给定文本的摘要、机器翻译及其余的任务。网络

NLP语言学分析

如今，有一个给定的文本。NLP能够从下面三个不一样等级来分析该给定文本：数据结构

语法学：该文本语法的正确性
语义学：该文本的含义是什么
语用学：该文本的目的的什么

除此以外，若是文本中含有音、视频，那么NLP又要从如下两方面来着手分析：框架

音韵学：该语言中发音的系统化组织
词态学：研究单词构成以及彼此之间的关系

NLP中理解语义的方法：机器学习

分布式：利用机器学习和深度学习的大规模统计策略
框架式：句法不一样，但语义相同的句子在数据结构被表示为程式化的情景
理论式：思路是句子指代的正真的词结合句子的部份内容可表达所有含义
交互式（学习）：它涉及大语用方法，在交互式学习环境中用户教计算机一步一步的学习语言

NLP的流程

NLP的机制涉及两个流程：分布式

天然语言理解
天然语言生成

天然语言理解（NLU）

天然语言理解（Nature Language Understanding）是要理解给定文本的含义。好比文本内的每一个单词的特性与结构须要被理解。在理解结构的基础上，NLU要理解天然语言中如下几个歧义：函数

词法歧义性：单词有多重含义
句法歧义性：语句有多重解析树
语义歧义性：句子有多重含义
回指歧义性：前文中的词语或句子在后面句子中有不一样的含义

天然语言生成（NLG）

NLG是从结构化数据中以可读的方式自动生成文本的过程。
天然语言生成可分为三个阶段：学习

文本规划：完成结构化数据中基础内容的规划
语句规划：从结构化数据中组合语句来表达信息流
实现：生产语法通顺的语句来表达文本

NLP的应用领域

聊天机器人

聊天机器人或者智能代理指的是，你能经过APP、聊天窗口、语音等方式进行交流的计算机程序。
它的重要性在愈来愈多的地方获得体现：大数据

它对理解数字化客服和频繁咨询的常规问答领域中的变化相当重要
它在一些特定场景下很是的有用及高效，特别是会被频繁问到的高度可预测的问题时

聊天机器人的工做机制：

基于知识：包含信息库，根据客户的问题回应相对的问题
数据存储：包含与用户交流的历史信息
NLP层：该层将用户的问题转译为信息，从而做出合适的回应
应用层：用来与用户交互的应用接口

NLP中深度学习的重要性

它使用基于规则的方法将单词表示为one-hot编码向量
传统的方法注重句法表征，而非语义表征
词袋，分类模型不可以分别特定语境

深度学习的三项能力：

可表达性：该能力描述了机器如何能近似通用函数
可训练性：深度学习系统学习问题的速度与能力
可泛化性：在未训练过的数据上，机器作预测的能力

除此以外，深度学习还有其余的能力，好比可解释性、模块性、可迁移性、延迟、对抗稳定性、安全方面等。

日志中的NLP

在日志分析和日志挖掘两方面，NLP在发挥着不可替代的做用。经过词语切分、词干提取、词形还原、解析等不一样技术被用来将日志转换成结构化的形式。
在日志分析中，NLP经过下列技术完成分析功能：

模式识别：将日志信息与模式薄中的信息进行对比，从而过滤信息的技术
标准化：日志信息的标准化将不一样的信息转换为一样的格式。当不一样来源的日志信息中有不一样的疏于，但其含义相同时，须要进行标准化
分类& 标签：不一样日志信息的分类 & 标签涉及到对信息的排序，并用不一样的关键词进行标注
Artificial Ignorance：使用机器学习算法抛弃无用日志信息的技术。它也可被用来检测系统异常

当日志以很好的形式组织起来以后，咱们就能从日志中提取有用的信息。

NLP的其余领域

除了在大数据、日志挖掘和分析中，NLP还浪迹在其余的应用领域中：

自动摘要：在给定文本的状况下，摒弃次要信息完成文本摘要
情感分析：在给定文本中预测期主题，好比文本中是否包含批判、观点、评论等
文本分类：按照其领域分类不一样的、新闻报道、期刊等。好比流行的文本分类是垃圾邮件、基于写做风格可检测做者的姓名
信息提取：建议电子邮件程序自动添加事件到日历