一个简单但很难超越的Sentence Embedding基线方法论-笔记

源码地址 https://github.com/PrincetonML/SIF 1.目的 创建句向量 2.方法 论文地址: 第一步,对句子中的每个词向量,乘以一个独特的权值。这个权值是一个常数αα除以αα与该词语频率的和,也就是说高频词的权值会相对下降。求和后得到暂时的句向量。 然后计算语料库所有句向量构成的矩阵的第一个主成分uu,让每个句向量减去它在uu上的投影(类似PCA)。
相关文章
相关标签/搜索