Mahout使用K-Means进行中文文本聚类

一、数据准备 版本说明 使用的Mahout版本为apache-mahout-distribution-0.10.1 使用的Hadoop版本为hadoop-2.3.0-cdh5.0.0 分词 使用爬虫对每个URL的标题、关键词、描述进行爬取,再用中文分词工具进行分词; (中文分词工具:http://lxw1234.com/archives/2015/07/422.htm) 最后,每个URL的分词结果
相关文章
相关标签/搜索