Hadoop大数据入门——HDFS和MapReduce基础使用

1、分析处理数据集 数据集描述:python 2011年某天某搜索引擎的搜索状况app 数据集一共6列,分别为时间、UID、搜索关键词、选择第几个入口、搜索次数、URL。oop 初级阶段个人研究目标是对搜索关键词(keyword)进行词频统计。搜索引擎 那么首先我须要对数据集进行预处理,这里我使用python编写处理程序,仅提取出关键字一列的内容造成新文件,为下一步存入Hadoop的HDFS中作准
相关文章
相关标签/搜索