自然语言处理(六)词向量

目的:把文本用数据的形式表达出来 方法:传统基于规则,现代基于统计 一、词编码方式1——离散表示 1、One-hot编码 和句子中顺序无关,耗空间耗时 2、词袋模型 每个数表示该词出现的次数(One-hot的加和) 3、TF_IDF 每个数代表该词在整个文档中的占比 4、N-gram 相邻N个词作为一组进行编码,缺点是浪费空间、无法衡量词之间的关系 二、词编码方式2——分布式表示 所谓分布式表示,
相关文章
相关标签/搜索