词向量表示：word2vec与词嵌入

时间 2020-12-23

原文原文链接

　　在NLP任务中，训练数据一般是一句话（中文或英文），输入序列数据的每一步是一个字母。我们需要对数据进行的预处理是：先对这些字母使用独热编码再把它输入到RNN中，如字母a表示为(1, 0, 0, 0, …,0)，字母b表示为(0, 1, 0, 0, …, 0)。如果只考虑小写字母a~z，那么每一步输入的向量的长度是26。如果一句话有1000个单词，我们需要使用 (1000, ) 维度的独热编码表