Word2Vec------skip-gram、CBOW、负采样、的一些理解

1.Window based Co-occurrence Matrix 简单来说就是统计语料库中,在确定window长度的情况下,统计word的出现频率,基于词频得到关联矩阵,例如: 然后,利用SVD奇异值分解,变成K维,每一row就刚好是每个词word embedding的大小。但是这种方法有很多缺点,纬度高、矩阵稀疏、cost较大等。 2. continuous bag-of-words (C
相关文章
相关标签/搜索