NLP天然语言处理

时间 2020-12-07

标签算法编程网络架构 app 函数学习优化编码栏目系统网络繁體版

原文原文链接

NLP

应用例子

垃圾邮件过滤 Spam Filtering
机器翻译 Machine Translation
信息检索 Information Retrieval
问答系统 Question Answering
信息提取 Information Extraction
内容摘要 Summarization
情感分析 Sentiment Analysis
命名实体识别 Entity Recognition

核心技术

语言模型 Language modelling算法
分词 Segmentation编程
```
它|是|一只|老虎
```

词性标注 Part-of-speech tagging网络

DT  VBX   DT   JJ      NN
This  is   a   simple question.

句法分析 Syntactic parsing架构

命名实体识别 Name-entity recognitionapp
语义角色标注 Word sanseis ambiguation函数

例子

天然语言处理技术历史

基于逻辑（集合论）的模型

例子

全部人都会死
苏格拉底是人
=》
苏格拉底会死

基本法则

a is b && b is c => a is c
a = not (not a)
a is b => not b is not a
P->Q => not P || Q =》not (P && not Q)

模糊集合论

集合论的缺陷

罗素悖论：由全部不包含自身的集合构成的集合学习

例子：理发师称只给那些不给本身理发的人理发。优化

基于集合论，理发师不管给本身理发仍是不给本身理发都是矛盾的。ui

所以集合论不是完备的。即便后面冯罗伊德等科学家提出了各类假定条件。编码

为何集合论不能适用于天然语言

天然语言不是严格的逻辑
句子的组成规则松散
平常用语经常有语法错误，但人依然能够正确的交流
即便天然语言用规则来描述，可是规则的数量很是庞大，没法彻底适用逻辑编程把全部的场景都覆盖
语言的二义性
- apple => computer/phone/fruit
- host => n or v
- I saw a man with a telescope
同一个意思能够有不少种表达

基于几率的模型

因为上述的缘由，集合率没法很好的描述天然语言，科学家发现经过几率模型能够更好的描述天然语言。

前一百个单词适用的频率和排名的曲线

深度学习

深度学习来处理天然语言属于几率模型

涉及数学的知识

函数

y=x^2

y=2x^3-14x2+24*x

y=sin(x)

高维函数

y=e^x

y=log(x)

y=1/(1+e^(-z))

y=max(0, x)

L1: ||x|| = |x1| + |x2|

L1正则化解析

证实最小点位于坐标轴上

h = f+c|x|

因为在x = 0处不可导

h-left'(0)*h-right'(0) = (f'+c)*(f'-c)

那么若是c>|f'(0)|可得，h在0处左右导数异号

0是最值。

那么在损失函数加入L1正则化后，能够获得某些维度容易为0，从而获得稀疏解

L2: |x||2 = (|x1|^2 + |x2|²⁾(1/2)

L2正则化，相似于L1的证实，容易获得比较平均的w，各个w都比较靠近0，从而获得更光滑的曲线

矩阵

Jacobian矩阵

矩阵的一阶导数
Hessian矩阵

矩阵的二阶导数

凸包和凸函数

几乎全部的最优化手段，都将适用凸优化算法来解决

几率

条件几率

P(A|B) = P(A and B) / P(B)

if A and B 独立

=》P(A and B| C) = P(A|C)*P(B|C)

也能够推出

=>A(A|B and C) = P(A|C) (B交C不为空)

二项分布

抛9次硬币，硬币出现正面的几率是0.5，出现k次的几率分布以下如

服从正态分布

指望

x的平均值

E = x*p(x) + ...

方差

x相对于指望的偏离

var = (x-E(x))^2

协方差

conv = (x - E(x))*(m - E(m))

描述x,m是否有同分布

按理协方差为0，并不表明x和m没有关系

例以下图

若是点的分布对称的分布，会获得协方差为0，可是其实他们是有关系的。

联合几率

把每一个相关的几率累加，获得联合几率

多项式分布

P(x1=m1,x2=m2...) = n!*P1^m1/m1!*P2m2/m2!

伽马函数

T(n) = (n-1)!

T(x)用一条曲线逼近n!，进而能够求得非整数的阶乘

beta分布

由二项式分布推出

P = T(a+b)*x^(a-1)*(1-x)(b-1)/(T(a)*T(b))

泊松分布

高斯分布

则正态分布

对数正态分布

指数分布

语言

信息嫡

p分布越平均，H越大，表明越不肯定

交叉嫡

y为0时，不考虑y‘。y为1时，y'越接近1，越小，越靠近0，越大

把D最小化，迫使y'逼近y

auto-encoder

语言几率模型

对于一个句子，有若干单词组成。例如

C1: The dog laughs.

C2: He laughs.

那么计算P(C1) = P(The, Dog, laughs)的几率和P(C2) = P(He, laughs)的几率。

根据历史文本的统计学习。

能够获得P(C1)<<P(C2)

词袋模型

P('I love the game') = P('I')*P('love')*P('the')*P('game')

其中P( ) = 频率/总单词数

情感分析

计算一篇文章是积极的仍是消极的。

P(y|x) = sigmod(wx)

x是文章内每一个单词的频率

y表示积极和消极情感

n-gram模型

P(x1, x2, x3 ... ) 
= P(x1)*P(x2|x1)*P(x3|x1, x2)....*P(xn|x1, x2,...xn-1)

其中P(xk|x1, x2,..xk-1) = frequence(x1, x2 ,, xk)/frequence(x1, x2..xk-1)

n通常不能太大，由于n太大，会致使全文没法找到一摸同样的单词组合，致使几率为0

2-gram模型例子

P('The dog sleeps')
= P(The)*P(dog|the)*P(sleeps|dog)

Interpolation

把多个gram的模型进行线性整合

语言模型评价

交叉嫡

H越小，Pxn越接近1，模型越好

Perplexity

贝叶斯进行邮件分类

P(y|x1, x2, .. xn) = P(y)*P(x1, x2, ... xn|y) / P(x1, x2, ... xn)

y表明是不是垃圾邮件

x表明单词

分词

广州市长寿路 -》广州市长|寿路

广州市长寿路 -》广州市|长寿路

匹配词袋：广州市，广州市长，长寿路

使用最大匹配发，第二个分词更优

使用N-gram模型计算分词

P(结合成分子)
option1: = P(分子|成)P(成|结合)P(结合)
option2: = P(分子|合成)P(合成|结)P(结)
optionn ....

经过统计P(A|B)，得出各个option的几率，取最大的几率，则为最后的分词

词表示

one-hot encoding

word => [0, 0 , ... 1, ... 0]

附近词encoding

word => [0, 1, 0, 1, 0, ...]

能够解决词类似性问题

附近词带权重encoding

计算附近词的频率

word => [0, 3, 0, 1, 0, ...]

C&W

w是附近词的one-hot encoding

score是词的one-hot encoding

最后一层经过softmax，取拟合文本

最终中间层则为词向量

skip-gram

输入为词one-hot encoding

输出为附近此的one-hot encoding

最后经过softmax预测附近词

最后中间层则为结果词向量

词性标注

混合模型

混合模型是一种统计模型，问题中包含若干个子问题，每一个子问题是一个几率分布，那么总问题就是若干个子问题的组合，也就是若干个子分部的组合，这样就造成了混合模型。

例子

有红黑两种硬币，把它们放在盒子里，从盒子里随机抽取一个硬币并投币，抽到红色的几率是p，红色硬币正面的几率是q，黑色硬币正面的几率是m，假设咱们没办法看到抽取出的硬币的颜色，只能看到最终是正面或者反面的结果，例如HTTHTTTTHHH (H:正面 T: 反面)。须要估计p,q,m三个参数。

此时能够计算出

w	红	黑
正	pq = a	(1-p)m = b
反	p(1-q) = c	(1-p)(1-m) = d

经过EM算法迭代以下：

随机p q m

迭代如下过程：

计算上面table

p = (aC(正)+cC(反))/total

q = aC(正)/(aC正+cC正)

m = bC(正)/(bC正 + dC正)

高斯混合模型

假设有上述数据，须要用混合模型来逼近，经过分析，红色和蓝色数据分别为高斯正态分布，N(u, v)

此时能够获得以下表

	红	蓝
x	pN红(u, v)	(1-p)N蓝(u, v)

p = pN红x/(pN红x+(1-p)N蓝x)

u = pN红x/n

v = pN红(x-u)^2/n

隐马尔可夫模型

词性转换几率

	V	N
V	P(V\|V)	P(N\|V)
N	P(V\|N)	P(N\|N)

词性到单词的转换几率

	go	home
V	P(go\|V)	P(home\|V)
N	P(go\|N)	P(home\|N)

经过EM递归算法，训练以上参数，获得隐马尔可夫模型

PLSA主题模型

主题模型

做用

经过抽象出文档的主题，能够经过比较主题向量的类似性，获得不一样文档之间的类似性
获得主题向量，至关于把文档去掉了噪声干扰
获得文档向量，能够进行其余模型的输入，进而对文档进行分类，回归等操做，获得更丰富的结果

词袋模型

只统计词的频率，不计算词的相对位置

LSA模型

计算文档和单词频率的矩阵

	w1	...	wn
doc1	3	...	0
doc2	1	...	5
...	...	...	...
docn	0	...	0

进行奇异矩阵分解

获得A矩阵的压缩U，U中的k则为k个主题

PLSA模型

经过分析，LSA获得的主题是跟现实没法关联，它只是一个量，而没有明显的意义。

PLSA为了解决此问题，引入几率模型，先肯定主题个数

而后经过构建Doc->topic的几率table，和topic->word的几率table。

而后经过EM模型，获得这两个table的全部几率值。

进而获得文档的主题表示

LDA模型

PLSA的缺陷是，对于预测未知的doc，没法计算此文档的相关几率。随着doc数量的增长，PLSA模型的参数会线性增长，从而会形成过拟合。

LDA经过引入先验几率来克服PLSA的问题。

上下文无关句法

CFG

S -> NP VP
VP -> Vi VP -> Vt NP VP -> VP PP
NP -> DT NN NP -> NP PP

相似于编译原理的上下文没法句法分析，一颗语法树

PCFG

经过对CFG引入几率参数

S -> NP VP	1
VP -> Vi	P1
VP -> Vt NP	P2
VP -> VP PP	P3
NP -> DT NN	P4
NP -> NP PP	P5

评估句子

有了几率，能够计算每颗语法树的极大似然几率，并取最大几率的树为最终输出

RNN

上一个状态中间层的输出做为下一隐层的输入

相似于HMM的2-gram模型。t状态受到t-1时刻输出的影响，受t-k的输出的k越大，影响越小

LSTM

因为RNN几乎只受到上一时刻的影响，而忽略了久远信息的影响。从而形成了必定的局限性。

LSTM经过引入长短记忆方法，来维持长记忆的信息。

遗忘门：上一刻的输出，会乘以一个sigmod的输出，sigmod的输出，决定了上一时刻的输出会保留多少到下一时刻。
输入门：经过对xt进行tanh处理，并进行输出，经过一个sigmod函数，决定t时刻有保留多少流向下一时刻
输出门：把遗忘门的输出和输入门的输出进行累加并进行tanh处理，并对输出进行sigmod处理，获得下一时刻的输入
遗忘门和输入们的输出累加后，会直接透传到下一时刻

经过训练核内的sigmod函数，使得LSTM能够根据不一样的句子，有条件的保留和过滤历史信息，从而达到长记忆的功能。

GRU

GRU是LSTM的简化版，它只须要处理两个sigmod函数的训练，而LSTM须要三个sigmod函数的训练，减小了训练的参数，加快了训练的速度，但也损失了一部分模型的复杂，在处理较复杂问题时，没有LSTM那么好。

Encoder-Decoder

auto-encoder-decoder

Seq2Seq

auto-encoder-decoder的特色是输出的单元数是固定的。对于通常天然语言处理，例如机器翻译，输入的单元个数跟输出单元的个数并非一一对应的，此时就须要动态的生成输出单元。Seq2Seq经过动态的输出结束符，表明是否输出完成，达到能够动态的根据输入输出不一样的单元个数。

Attention Mechanism

seq2seq的缺点是，全部的输入序列都转化为单一的单元c，致使不少信息都将消失，对于不一样的输出yi，它可能依赖的输入xj有可能不同，此时经过加入注意力模型，经过对xi进行softmax处理，并加入到y权重的训练中，可让不一样的y，有不一样的x对它进行影响

softmax的输入为输入单元x，和上一个输出单元y，联合产生softmax的权重，进而对不一样的序列，对于同一个x，会有不一样的注意力到输出

Memory Network 记忆网络

Transformaer

self attention

参数说明

q = Wq(x)

k = Wk(x)

v = Wv(x)

x为词向量

原理

经过训练，获得权重w，从而学习到这一层的softmax注意力参数

multi-head-self-attention

R是前一次encoder的输出

经过增长w的数量，产生多个z，并进行堆叠，经过前馈网络，最后产生z

位置编码

在使用self attention处理句子时，是没有考虑单词在句子中的位置信息的。为了让模型能够加入考虑单词的位置信息，加入了位置编码的向量

计算以下：

pos为单词在句子中的位置

i为词向量的位置

d为句子的长度

位置编码加上词向量造成tranformer的输入

transformer整体架构

编码器的内部结构

加入了归一化和残差网络

最终经过softmax，输出每一个单词的几率，并最终输出单词

	V	N
V	P(V\|V)	P(N\|V)
N	P(V\|N)	P(N\|N)

	go	home
V	P(go\|V)	P(home\|V)
N	P(go\|N)	P(home\|N)