大数据应用期末总评

1.将爬虫大做业产生的csv文件上传到HDFS数据库

1、创建一个运行本案例的目录database,data并查看是否建立成功

2、将本地文件csv上传到HDFS并查看是否上传成功

3、查看文件:

2.对CSV文件进行预处理生成无标题文本文件2、预处理文件,将csv生成txt文件:

 

1、预处理文件,将csv生成txt文件:

 

 

3.把hdfs中的文本文件最终导入到数据仓库Hive中spa

1、启动hdfs:3d

2、查看是否上传成功,本文件为ddd.txtblog

3、启动数据库:博客

4、在hive中建立数据库dbhhh:数据分析

5、使用dbhhh数据库建立表格命名为ddd文件上传

 

4.在Hive中查看并分析数据sed

1、在hive中查看数据,查找表的前10条记录:csv

 2、筛选评论数量较多的标题,查看人们比较关心的热门问题im

 

 

3、筛选结合阅读量较高的标题

筛选结合阅读量和评论量,能够获得人们感兴趣的人们话题为东兴证券的各种资金问题较感兴趣

 

 

5.用Hive对爬虫大做业产生的进行数据分析,写一篇博客描述你的分析过程和分析结果。(10条以上的查询分析)

相关文章
相关标签/搜索