词向量表示:word2vec与词嵌入

  在NLP任务中,训练数据一般是一句话(中文或英文),输入序列数据的每一步是一个字母。我们需要对数据进行的预处理是:先对这些字母使用独热编码再把它输入到RNN中,如字母a表示为(1, 0, 0, 0, …,0),字母b表示为(0, 1, 0, 0, …, 0)。如果只考虑小写字母a~z,那么每一步输入的向量的长度是26。如果一句话有1000个单词,我们需要使用 (1000, ) 维度的独热编码表
相关文章
相关标签/搜索