做者:余根茂,阿里巴巴计算平台事业部EMR团队的技术专家,参与了Hadoop,Spark,Kafka等开源项目的研发工做。目前主要专一于EMR流式计算产品的研发工做。
1. 前言
从EMR-3.18.1版本开始,EMR将提供Spark Streaming SQL预览版功能。本次做为新特性的一部分,EMR将扩展示有Spark WebUI,支持Structured Streaming Query的统计信息查看。sql
2. 功能介绍
2.1 Query列表
咱们在现有Spark WebUI上新增了streamingsql Tab,用于展现当前做业中进行中以及完成的Streaming Query。微信
URL地址:http://${baseUrl}/streamingsqlapp
Active Streaming Queries:当前正在运行的queryoop
Completed Streaming Queries:已完成的query,包括结束的和失败的queryui
说明spa |
|
Query Name.net |
查询Name,经过“SET streaming.query.name=${QUERY_NAME}”指定。3d |
Statusorm |
当前运行状态,包括RUNNING,FAILED和FINISHED。blog |
Id |
Query ID,保存到checkpoint中,屡次运行同一个query, id保持不变。 |
Run ID |
Query Run ID,每次从新运行query,都会从新生成一个Run ID。 |
Submit Time |
当前Query提交执行的时间。 |
Duration |
当前Query运行时间。 |
Avg Input PerSec |
最近"spark.sql.streaming.numRecentProgressUpdates"个批次的平均数据输入速率。默认最近100个批次统计信息。 |
Avg Process PerSec |
最近"spark.sql.streaming.numRecentProgressUpdates"个批次的平均数据处理速率。默认最近100个批次统计信息。 |
Total Input Rows |
最近"spark.sql.streaming.numRecentProgressUpdates"个批次的数据条数总和,注意不是Query运行期间的数据条数总和。默认最近100个批次统计信息。 |
Last Batch ID |
最近一次完成的Batch ID。 |
Last Progress |
最近一次批次的执行信息。 |
ERROR |
若是Query失败,展现摘要错误信息。 |
支持在界面上kill某个query。
kill以后状态变为“FINISHED”:
2.2 Query统计详情
经过点击Query的RunID,能够查看当前Query的运行统计信息,包括:Input Rate,Process Rate,Input Rows的时序变化,以及每一个批次的Duration堆栈图,包括WalCommit,QueryPlanning,GetOffset,GetBatch以及AddBatch。
URL地址:http://${baseUrl}/streamingsql/statistics?id=9d7e9076-f96a-4d19-9f82-460b5af57daa
咱们能够查看任意时间的Batch的各个执行阶段的时间消耗。
一样的,这里将只会展现“spark.sql.streaming.numRecentProgressUpdates”个Batch的统计信息。若是须要查看更长周期内的统计信息,能够设置“spark.sql.streaming.numRecentProgressUpdates”为更大值。须要注意的是,这会带来必定的内存开销。
3. 小结
以上简单演示了Structured Streaming Query的管理和统计信息查看功能。当前Spark Streaming SQL处于预览阶段,咱们将在UI上集成更多有用的信息,方便你们查看和监控做业的运行状态。
本文分享自微信公众号 - Apache Spark技术交流社区(E-MapReduce_Spark)。
若有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一块儿分享。