sparkstreaming 实时读取kafka写入hive优化(高流量)

背景:node kafka流量在800M/s,前任留下的程序大量数据丢失,且逻辑生成复杂,查询hive直接奔溃,优化从两方面,程序优化及小文件合并(生成结果产生大量小文件)sql 程序直接上代码,啥也不说了apache 程序json   def main(args: Array[String]): Unit = {     val  sdf = new SimpleDateFormat("yyyy
相关文章
相关标签/搜索