语言模型和共现矩阵（转）

时间 2019-11-05

标签语言模型矩阵栏目应用数学繁體版

原文原文链接

本文转自： https://blog.csdn.net/hao5335156/article/details/80452793网络

一、语言模型

目的：克服one-hot、tf-idf方法中向量丢失句子中单词的位置关系信息函数

1）2-gram

假设语料库以下：学习

John likes to watch movies. Mary likes too.John also likes to watch football games.编码

2-gram创建索引以下：（把每一个句子中相邻的2个单词用一个编码表示，再也不是之前的一个单词一个编码）atom

“John likes” : 1,
“likes to” : 2,
“to watch” : 3,
“watch movies” : 4,
“Mary likes” : 5,
“likes too” : 6,
“John also” : 7,
“also likes” : 8,
“watch football”: 9,
“football games”: 10,spa

获得10个编码，因此构建的词向量长度为10；对于句子”John likes to watch movies. Mary likes too.”的编码以下：（依次判断1-10个编码，第一个编码”John likes” : 1在句子中出现则为1，不然为0）
[1, 1, 1, 1, 1, 1, 0, 0, 0, 0].net

2）N-gram

同2-gram，每一个句子中相邻的N个单词用一个编码表示，再也不是之前的一个单词一个编码xml

3）优缺点

优势：考虑了词的顺序
缺点：词表的膨胀blog

语言模型
一句话 (词组合) 出现的几率
索引

p (w 1, . . ., w m) = \prod i = 1 m P (w i | w 1, . . ., w i - 1)

Unigram/1-gram

P (M a r y

Bi-gram/2-gram

P (M a r y

不足：没法衡量词向量之间的关系，同时向量太稀疏

二、共现矩阵

主要用于发现主题，解决词向量相近关系的表示；
将共现矩阵行(列)做为词向量

例如：语料库以下：
• I like deep learning.
• I like NLP.
• I enjoy flying.

则共现矩阵表示以下：（使用对称的窗函数（左右window length都为1) ）

例如：“I like”出如今第1，2句话中，一共出现2次，因此=2。
对称的窗口指的是，“like I”也是2次

将共现矩阵行(列)做为词向量表示后，能够知道like，enjoy都是在I附近且统计数目大约相等，他们意思相近

共现矩阵不足：
面临稀疏性问题、向量维数随着词典大小线性增加

解决：SVD、PCA降维，可是计算量大

三、word2vec

前面方法须要存储的数据过大，这里主要是保存参数来节省，须要时候再经过计算参数得出结果。原理是经过浅层的神经网络训练（input是onehot词向量，output是预测的词向量，好比“我喜欢自学习”，input=“我”和“学习”，out=“喜欢”，input=(0001000)的话，输出时候1的位置是几率，P“喜欢”=1，语料库中的其余词则是P=0）