kafka-spark-hive

一、场景介绍:数据发往kafka(500亿条天天),用spark读取kafka的数据,写入到hive表里面(ORC压缩算法,一个分区字段)算法 二、hive的介绍:hive表是分区表分区的字段是一个,想要使用动态分区,hive的压缩算法是ORC FILEspa              使用spark的组件spark streaming 能够流式的读取kafka的数据,而且直接写入到HDFS上。首
相关文章
相关标签/搜索
本站公众号
   欢迎关注本站公众号,获取更多信息