笔者早期从事数据开发时,使用spark开发一段时间,感受大数据开发差很少学到头了,该会的彷佛都会了。在后来的实践过程当中,发现不少事情须要站在更高的视角来看问题,否则很容易陷入“不识庐山真面目”的境界。最近在思考数据资产管理平台的建设,进行血缘分析开发,有以下感悟:架构
大数据平台从数据层面来讲,包括数据自己和元数据;从业务层面来讲,在数据中心(数据仓库)的基础上,支撑数据分析、数据挖掘,提升其分析、挖掘效率;从管理角度来讲,为了提高开发效率,须要利用好组件管理平台,对元数据进行管理,打造数据开发运维平台。运维
在此基础上,一个完善的大数据架构,至少包括三个方面:性能
大数据架构设计须要兼顾不一样需求,根据不一样的数据分析、数据挖掘场景,在资源限制与性能要求下,提供不一样的平台方案。大数据
对于大数据架构师,不只要熟悉各类组件的使用及其适用场景,还须要熟悉组件管理、元数据管理、开发运维管理等。其搭建的平台,可否提升数据分析效率,可否提升数据挖掘的效率,可否保证数据质量,可否打通整个数据链条等。spa