1.将爬虫大做业产生的csv文件上传到HDFS数据库
3.把hdfs中的文本文件最终导入到数据仓库Hive中spa
1、启动hdfs:3d
2、查看是否上传成功,本文件为ddd.txtblog
3、启动数据库:博客
4、在hive中建立数据库dbhhh:数据分析
5、使用dbhhh数据库建立表格命名为ddd文件上传
4.在Hive中查看并分析数据sed
1、在hive中查看数据,查找表的前10条记录:csv
2、筛选评论数量较多的标题,查看人们比较关心的热门问题im
3、筛选结合阅读量较高的标题
筛选结合阅读量和评论量,能够获得人们感兴趣的人们话题为东兴证券的各种资金问题较感兴趣
5.用Hive对爬虫大做业产生的进行数据分析,写一篇博客描述你的分析过程和分析结果。(10条以上的查询分析)