UCAS - AI学院 - 自然语言处理专项课 - 第12讲 - 课程笔记

文本分类与聚类 文本分类 文本——领域信息分类 传统机器学习方法 文本表示 向量空间模型——BoW模型 词的权重 词频TF 布尔变量 逆文档频率IDF TF-IDF 特征选择 文档频率:根据训练语料中的文档频率,对所有特征进行排序 词频:根据训练语料中特征的频率,对所有特征进行排序 基于无监督思想,特征选择缺乏类别信息的指导 相关概率估计(文档数) P ( c j ) ≈ ( A i j + C
相关文章
相关标签/搜索