大数据平台架构思考

笔者早期从事数据开发时,使用spark开发一段时间,感受大数据开发差很少学到头了,该会的彷佛都会了。在后来的实践过程当中,发现不少事情须要站在更高的视角来看问题,否则很容易陷入“不识庐山真面目”的境界。最近在思考数据资产管理平台的建设,进行血缘分析开发,有以下感悟:架构

大数据平台从数据层面来讲,包括数据自己和元数据;从业务层面来讲,在数据中心(数据仓库)的基础上,支撑数据分析、数据挖掘,提升其分析、挖掘效率;从管理角度来讲,为了提高开发效率,须要利用好组件管理平台,对元数据进行管理,打造数据开发运维平台。运维

在此基础上,一个完善的大数据架构,至少包括三个方面:性能

  1. 开发组件管理平台:用于搭建和管理大数据开发组件,如etl、hdfs、hbase、presto、kerbose等;
  2. 数据资产(元数据)管理平台:元数据采集、元数据管理、血缘分析、数据质量、数据标准、数据指标、数据生命周期管理等。
  3. 开发运维平台:数据脱敏、权限管理、调度管理、开发管理、发布管理、运维监控与预警等等。

大数据架构设计须要兼顾不一样需求,根据不一样的数据分析、数据挖掘场景,在资源限制与性能要求下,提供不一样的平台方案。大数据

对于大数据架构师,不只要熟悉各类组件的使用及其适用场景,还须要熟悉组件管理、元数据管理、开发运维管理等。其搭建的平台,可否提升数据分析效率,可否提升数据挖掘的效率,可否保证数据质量,可否打通整个数据链条等。spa

相关文章
相关标签/搜索