spark streaming拉取kafka数据, 结合sparkSql dataframe hive存储计算,输出到mysql

spark streaming拉取kafka数据, 结合sparkSql dataframe hive存储计算,输出到mysql.java 数据清洗过程比较复杂,没办法,上游给的屡同样的数据,正则去解析并全量按时间取最新一条去重。node 天天kafka数据5千万条。1分钟要刷一次,看上去还能够知足。只有屡同样去堆代码了。mysql package biReportJob.streaming i
相关文章
相关标签/搜索