一个简单但很难超越的Sentence Embedding基线方法论-笔记

时间 2021-01-02

原文原文链接

源码地址 https://github.com/PrincetonML/SIF 1.目的创建句向量 2.方法论文地址：第一步，对句子中的每个词向量，乘以一个独特的权值。这个权值是一个常数αα除以αα与该词语频率的和，也就是说高频词的权值会相对下降。求和后得到暂时的句向量。然后计算语料库所有句向量构成的矩阵的第一个主成分uu，让每个句向量减去它在uu上的投影（类似PCA）。