《商业数据分析》读书笔记(十)

10.呈现和挖掘文本 基本概念:构建易于挖掘数据呈现的重要性;为了数据挖掘的文本呈现 主要技巧:词袋呈现;TFIDF计算;N-grams;填充;命名的实体抽取;主题模型 为什么文本重要 为什么文本困难 呈现 词袋 词组频率 测量稀疏性:逆向文件频率 组合它们:TFIDF 例子:爵士音乐家 *IDF和熵的关系 词袋之外 N-gram 序列 命名的实体抽取 主题模型 例子:挖掘新闻故事预测股票变动 任
相关文章
相关标签/搜索