文本挖掘之新闻分类

数据探索流程 步骤 增加序号列 本实验的数据源是以单个新闻为单元,需要增加ID列来作为每篇新闻的唯一标识,方便下面算法的计算。 分词及词频统计 这两步都是文本挖掘领域最常规的做法。 首先使用分词组件对content字段(新闻内容)进行分词。去除过滤词之后(过滤词一般是标点符号及助语),再对词频进行统计。 停用词过滤 停用词过滤组件用于过滤输入的停用词词库,一般过滤标点符号以及对文章影响较小的助语等
相关文章
相关标签/搜索