天然语言处理词向量模型-word2vec

天然语言处理与深度学习:

语言模型:

N-gram模型:

 

N-Gram模型:在天然语言里有一个模型叫作n-gram,表示文字或语言中的n个连续的单词组成序列。在进行天然语言分析时,使用n-gram或者寻找经常使用词组,能够很容易的把一句话分解成若干个文字片断网络

词向量:

神经网络模型:

注:初始化向量,能够先随机初始化。学习

传统神经神经网络只须要优化输入层与隐层,隐层与输出层之间的参数。优化

 

 

神经网络模型的优点:一方面能够获得词语之间近似的含义,另外一方面求解出的空间符合真实逻辑规律编码

CBOW求解目标:

预备知识:.net

树的带权路径长度规定为全部叶子结点的带权路径长度之和,记为WPL。设计

分层的softmax设计思想:词频中出现词几率高的尽量往前放,能够用哈夫曼树来设计。3d

天然语言哈夫曼树详解,包含构造和编码:https://blog.csdn.net/shuangde800/article/details/7341289blog

Hierarchical Softmax是用哈夫曼树构造出不少个二分类。深度学习

 

 

负采样模型:

相关文章
相关标签/搜索