运营商和互联网面临不一样的历史时期,于是大数据在各自领域承担的使命是不同的架构
运营商面临被管道化的挑战,营收下滑,大数据项目承担企业战略转型、数据变现的使命。同时因为成本的压力,以及大量基础设施和设备利旧的诉求,因此运营商在大数据项目中,对性能、成本和集成度提出了很高的要求。并发
互联网企业近几年盈利颇丰,大数据每每是承担业务快速创新、将来探索的一种驱动因素,因此对架构的扩展性、灵活性等方面的追求优先级在成本之上。互联网企业每建一个数据中心一般就是几千台的规模,这在运营商看来是不可想象的。框架
背后的商业驱动因素不同,所带来的架构挑战也不同。运维
咱们将以一个实际的大数据架构参与者、旁观者的角色讲述真正的实战经验,但愿带给读者一些启发。前面讲到商业驱动因素不同,所面临的场景不同,选择的技术措施也会有所区别,可是其实存在即合理,实践出真知机器学习
大数据平台架构如图2.1所示。能够看到,最上层是应用,大数据平台最后仍是要解决实际的业务问题,在运营商领域分别解决SQM(运维质量管理)、CSE(客户体验提高)、MSS(市场运维支撑)、DMP(数据管理平台)等问题。这部份内容会在第3章详细介绍。高并发
第二层是各个组件/技术支撑,包括数据从产生获取、处理(实时、批处理)、分析(交互式查询、机器学习与数据挖掘)到最后的展示。这部份内容会在第四、8章介绍。oop
第三层,为了支持数据的存储处理,须要统一的资源管理及分配。这部份内容会在第9章介绍。性能
第四层,上层框架和处理都构建在存储的基础上,因此存储是基础中的基础。这部份内容会在第10章介绍。学习
第五层,大数据部署形态有云化部署、物理机部署等多种部署模式。这部份内容会在第1 1章介绍。大数据
第12章介绍大数据技术开发文化
Hadoop从2006年项目成立开始,已经风风雨雨走过了10年,从最开始的HDFS和MapReduce 两个组件到如今完整的生态链。展望将来,随着技术和业务的发展,下面这些趋势应该是全部设计和实现大数据平台的人须要认真考虑的。
· Cloud First:云优先。服务端利用云的部署和扩展能力,保证数据访问高并发、高可用、高可靠。
· stream Default:流优先。数据源端更多的是流数据,要求实时分析,进行秒级或分钟级计算。
· Pervasive Analytics:普适分析。将分析能力推至数据源端、管道和服务端,低时延反馈结果
· self service:自服务。无须太多的人为干预和人力投人,使得数据合理放置,转换为适合分析的数据类型,方便APP开发等。
如今看着风光无限的组件或者平台,会不断地被后来者所替代。
本章简要总结了本书的主要章节和内容。本书是围绕一个通用的大数据处理逻辑架构来展开的。在实际的生产环境中,该架构并非一成不变的,会根据业务来灵活地部署和应用。固然,在一个完整的企业大数据系统里,本书介绍的内容彻底不够,本书只介绍最基础的大数据平台,不少底层或者上层的内容可能没有覆盖到。另外,架构不是凭空出现的,由业务场景驱动的架构才是真正可用的架构。
谢谢支持,喜欢关注哟!