spark streaming拉取kafka数据，结合sparkSql dataframe hive存储计算，输出到mysql

时间 2020-01-21

标签 spark streaming kafka 数据结合 sparksql dataframe hive 存储计算输出 mysql 栏目 Spark 繁體版

原文原文链接

spark streaming拉取kafka数据，结合sparkSql dataframe hive存储计算，输出到mysql.java 数据清洗过程比较复杂，没办法，上游给的屡同样的数据，正则去解析并全量按时间取最新一条去重。node 天天kafka数据5千万条。1分钟要刷一次，看上去还能够知足。只有屡同样去堆代码了。mysql package biReportJob.streaming i

>>阅读原文<<

spark streaming拉取kafka数据， 结合sparkSql dataframe hive存储计算，输出到mysql

spark streaming拉取kafka数据，结合sparkSql dataframe hive存储计算，输出到mysql