【互动问答分享】第12期决胜云计算大数据时代Spark亚太研究院公益大讲堂

时间 2019-11-08

标签互动问答分享决胜计算数据时代 spark 亚太研究院公益讲堂栏目 Spark 繁體版

原文原文链接

“决胜云计算大数据时代”安全

Spark亚太研究院100期公益大讲堂【第12期互动问答分享】网络

Q1：jobserver 企业使用状况如何？并发

Q2：请问，jobserver是适合企业内部仍是供外部客户使用（可能并发、安全有要求），仍是二者ok?云计算

Q3：请问，spark 跑1T数据须要多少内存才能很快跑完server

这首先和程序运行时候在每台Worker上使用的内存和CPU有关，提交程序的时候能够手动配置；内存
其次是和带宽有关系，Shuffle的要尽可能减小数据；
Driver所在的机器的配置也是极为重要的，通常而言Driver所在的Client的内存和CPU根据实际状况要尽量的更高的配置，同时，也是相当重要的Driver和Spark集群要在同一个网络环境，应为Driver要不断的task给Worker上的Executor，同时接受Driver的数据；

Q4：我目前是解决stackoverflow Error 是用checkPoint解决lineage过长的问题可是这样会影响效率怎样在效率和error之间均衡呢？

:StackOverflow能够经过配置BlockManager内存管理策略来缓解；
对于checkpoint，要根据实际状况调整，例如对于Spark Streaming 默认是在内存有两份数据副本，此时若是处理能力没法及时消费实时流数据，就会极为容易产生StackOverflow的状况，此时就要根据实际状况调整时间窗口和进行checkpoint；