浪院长 | spark streaming的使用心得

时间 2019-11-06

标签院长 spark streaming 使用心得栏目 Spark 繁體版

原文原文链接

https://blog.csdn.net/rlnLo2pNEfx9c/article/details/82505159 css

今天。主要想聊聊spark streaming的使用心得。html

1，基本使用redis

主要是转换算子。action，和状态算子，这些事实上，就依照api手冊或者源代码里接口介绍结合业务来编码。
api

事实上，想用好spark streaming 掌握spark core，spark rpc。spark 任务调度。spark 并行度等原理还很是有必要。
缓存

2。中间状态缓存微信

说到中间算子你们确定都会想到UpdateStateByKey等状态。里面很是多注意事项，比方顺序性。key的超时机制维护。这个适合数据量很少，尤为是key的维度很少，value不大的状况。post

固然数据量上来了，要想维护中间状态怎么办？事实上这个时候确定是第三方存储，比方redis，alluxio。redis更适合那种key带超时机制的。而且数据量确定不能过大。而alluxio就很是适合那种高吞吐量的，比方去重统计。编码

3，结果输出spa

direct streaming能保证仅一次处理，但是要求输出存储支持密等性。或者主动将结果更改成存在更新不存在插入。固然，假设外部存储系统支持事务那就更嗨。能实现恰一次处理。.net

实际上在offset维护这个层面上，spark streaming 不一样版本号于kafka不一样版本号结合实现有很是大不一样。

4，监控告警及故障本身主动恢复

我认为对于监控告警及故障本身主动恢复。重要程度不亚于业务场景。因为再好的业务实现，架不住系统挂掉你不知道。因为你总不能二十四小时盯着系统。而且很是多公司对故障本身主动恢复都有kpi。比方3min，人工去检測故障并恢复不太可能，需要本身实现一套监控系统。

5，调优

调优对于spark streaming很是重要，因为一个批次处理延迟就会致使job堆积。结果输出延迟，深圳任务挂掉数据丢失。

调优事实上最注重对spark 原理把控，数据量的了解及资源和数据的关系。

6，源代码

源代码阅读。为了帮助你们更透彻的理解原理。主要会分三块：

spark streaming 与kafka-0.8.2 direct stream。

spark streaming 与kafka-0.8.2 receiver based stream。

spark streaming 与kafka-0.10.2 direct api。

这些内容比較多。本周日晚上八点到十点浪尖准备搞个qq直播，对这些内容有兴趣的小伙伴可以扫码參团，费用不高。算是对浪尖创做的支持吧。

固然。准备是两到三次，每次两个小时。实际次数看效率。

參与直播的直接联系微信 158570986

固然，要是喜欢浪尖，更但愿增长浪尖知识星球，球友可以免费參与直播。