hive项目之微博ETL项目总结分析

微博ETL项目分析 一、数据格式 文件格式 Txt Csv’ Xls Doc 数据结构格式 Html格式,既是一个文件格式,也是一个数据结构格式 Json格式:kv对 Xml格式:一个根标签,和一堆子标签 二、输入和输出 输入: 房地产评论主题下的对应的用户基本信息文件集和评论内容文件集,两者之间是通过用户id关联的。 通过一定的java程序设计做数据解析、结构化、各自合并成一个文件即可方便loa
相关文章
相关标签/搜索