kafka与SparkStreaming整合
时间 2020-12-27
标签
Saprk
SparkStreaming
kafka
大数据
操作系统
spark
1、Receiver模式
- 接收器模式,必须有一个Task接收数据
- 接收器模式的话很容易造成丢失数据。如果接收数据的期间,Driver挂掉,那么在Excuter内存中的数据多多少少会丢失一些,
- WAL机制优化机制,可以将数据存储在Hdfs一份,但一定要设置Checkpoint 持久化 才可以放磁盘 不tm开启放个屁。
1.6之后这种模式就被移除了
Direct模式
处理数据就去拿,而不是被动的接收数据
- Receiver太被动的接收数据了,来一条数据,要么放磁盘要么放内存。
- 图片中的 整合所依赖的API是老版本kafka才有的,新版本有新的。