一家企业何时会决定上云?过去,这个问题的答案多是当企业发现须要购买新的硬件进行新一轮资本投入时,每每倾向于考虑另外一种替代方案,好比云,这可能更多仍是从成本方面考虑;或者,当企业出现某种弹性计算需求时,云平台是很是好的实现 IT 资源“削峰”的方案。数据库
不一样于现有技术边界的“替换”,现在,这个问题的答案能够再加上一条:技术边界的“扩张”。当企业须要某种能力,好比 AI 或者大数据,但自身技术实力达不到或者企业核心竞争力不在技术自己,此时就可能会考虑上云,甚至这已经成为很多企业选择云平台的重要缘由。经过选择云平台,企业实现了本身技术边界的扩张,从而为业务边界扩张提供技术上的保障。安全
过去几年,云平台大数据服务愈来愈成熟,单就这一项,主流云厂商可提供的服务列表就达到数十种,本地大数据服务的声音彷佛愈来愈弱,这在 Cloudera 与 Hortonworks 合并以后尤其明显。有分析人士指出,Hadoop 与 Spark/Flink 等流技术的融合已经在云平台发生,这让 Cloudera 和 Hortonworks 的基础产品出现落后。巧合的是,Spark 商业化公司 DataBricks 选择了一条不一样于 Cloudera 与 Hortonworks 的软件发行之道,DataBricks 一直坚持走云上订阅方式,从而在商业上更加领先。据此,本地大数据服务是否进入消失倒计时?云平台大数据服务最终到底会趋向多云、混合云仍是单一公有云?集群规模增大,上云成本将难以承受是误区仍是事实?网络
InfoQ 将就上述问题展开系列探讨,追踪采访数位行业内云计算和大数据相关方向技术专家,从他们的观点中获取答案。本期采访嘉宾——阿里云智能通用计算平台负责人关涛。架构
云平台 vs 本地大数据服务
在对比云平台和本地大数据服务以前,咱们先来探讨一个基本问题:不一样量级、不一样技术能力的企业是否都适合上云,这也是企业上云以前必须想明白的问题。咱们常常听到一句话:将来的云计算会成为像水电煤同样的基础设施,暂且不论这句话是否彻底正确,中国目前的上云进程的确在加快,若是要成为必备基础设施,势必须要匹配全部量级、全部技术能力的企业。运维
对于互联网初创型企业,其特色是业务模式和规模高度不肯定,数据量小,计算场景不肯定,资金有限且没有本身的数据技术力量。关涛表示,对这类型企业而言,云大数据服务能够帮助下降大数据使用门槛,让企业将有限的人力和物力都放在业务层面,快速搭建并为不肯定的将来发展预留弹性能力。这种类型的客户的需求关键字是:灵活和全面。工具
对于中大型互联网企业,其一般拥有本身的集群和数据,业务相对稳定且有 SLA 要求,甚至具有很是成熟的数据团队,这部分企业的技术能力或许足够知足业务需求,上云所能带来的好处就是下降甚至免除运维,保障 SLA 并提高安全能力,同时在性能、弹性等方面提供更低成本的服务。 需求关键字:稳定和成本。oop
对于传统客户,这部分企业每每更加谨慎,且原有数据中心较为庞大,总体迁移须要考虑的因素很是多,一般须要一整套解决方案,这部分企业每每也最在乎云计算的成本、稳定性和安全性等问题。需求关键字:解决方案。性能
成本大数据
云计算自己是一个须要重投资的领域,虽然有很多公司加入,但排名靠前的依旧集中于几家资本和技术力量比较雄厚的公司。相对于本地大数据服务,云平台大数据服务的性能、稳定性、成本和安全性一直是讨论的焦点。关涛表示,云厂商在数据中心选址基建(例如须要综合考虑电力成本和容量因素)、硬件建设、带宽网络建设(例如须要独立双链路网络保证)、存储、CDN 分发、安全加固等方面都投入了巨大精力,资本投入在百亿甚至千亿级别,中小企业自建服务的资本和技术投入显然没法达到这一程度。优化
对于中小企业而言,上云是个相对轻松的话题,首先数据资产量小尚可轻松挪动,且可享受云厂商带来的技术优点;其次,业务体量相对较小,总体使用成本较低。可是,很多人认为“当集群规模达到必定程度,云平台的成本会变得很是高”。对此,关涛认为,虽然云计算是个按需付费的资源,但小型数据中心的硬件启动成本并不低,若是企业自行搭建,还须要考虑其中的人力成本,这部分隐性成本常常被忽略。
从软件层面来看,主流云厂商在技术层面的投入很是大,这不只仅是技术研发层面的资金支持,阿里云平台所提供的服务大都在内部业务通过长时间试运行,达到稳定之后才开放给用户,这是普通公司很难达到的,尤为是中小企业的基础设施上云很难投入到这个级别,集中力量打造业务层面的差别性优点才是这类型企业的立足关键,而不是纠结于底层的基础设施。
固然,若是企业具有必定线下集群,上云确实须要必定工做量和迁移成本,这包括网络打通、数据、做业、应用迁移等。线下规模越大,工做量就越大,这是目前阻碍企业上云的重要挑战。关涛表示,这部分工做实际上是阶段性的,随着云技术的发展,企业能够直接或间接享受技术红利。此外,云厂商提供了很多迁移技术,好比多种类型的数据运输与搬迁工具,基于专线的数据上传和混合云技术等。
安全
安全是企业对云计算最先也是最大的顾虑,上云确定没法彻底规避安全风险,但若是和自建机房相比,云平台至关于多了一重保险。若是企业自建机房,部署某个版本的 Linux 系统,也不见得将补丁打全,一样存在安全风险。关涛表示,阿里云在安全方向(包括内核漏洞修补、DDos 防御、主动漏洞扫描、权限管理、隐私保护等)上有很是大的投入,安全性比自建要好的多。
云厂商 vs 云上自建大数据服务
对于一些互联网企业而言,并不纠结是否上云,而是在考虑选择云厂商提供的大数据服务仍是选择基于云平台自建,这些企业每每具有必定技术能力并拥有原始业务积累。关涛认为,从业界来看,美国大多数互联网企业已经放弃自建数据中心而大规模应用云技术,例如 NetFlix 已经将全部业务迁移至公有云;专一专有云和 IaaS 的 Cloudera 和 Hortonworks 已经合并过冬。
从发展趋势来看,这是一个云服务逐步成熟与客户认知逐步发展的过程,就比如每一项新技术都通过了长期市场论证同样。关涛认为,客户认知应该会从最开始的怀疑(安全性、稳定性等)到逐步尝试,到上云,再到大规模依赖;从数据中心和主机托管,到依赖 IaaS,再到大规模应用无服务计算、PaaS 和 SaaS;从专有云部署到混合云,再到公有云。
其次,随着大数据与 AI 技术的发展成熟,云厂商在该领域的竞争优点已经逐步从“能作”变成“又快又好”。云计算厂商的规模优点可以创建更高的竞争门槛,这是不少企业自建所达不到的。
混合云和多云皆是过程,单一云平台多是主流
当企业肯定选择云厂商提供的大数据服务时,又会出现新的问题:如何从这么多种云平台大数据服务中选择最符合本身业务发展需求的?是选择混合云、多云仍是单一公有云平台?
去年,一贯对混合云不感兴趣的 AWS 推出了很多混合云服务,这让很多企业开始推测云计算的将来将是混合云或者多云。对此,关涛更倾向于多云和混合云皆是中间过程,最终的大方向应该是单一公有云的观点。他补充道,不管是混合云仍是多云都存在跨云管理的问题,用户须要适配一套或者多套云系统,并将系统间数据和业务打通协调,比本地或者单一云平台更加复杂。
现阶段,依照用户需求不一样,本地部署、混合云(做为中间形态)与云平台部署三种状况均可能出现。可是,长期来看,随着云平台的逐渐成熟和用户承认,从成本和效率角度出发,单一云平台或许会是主流。
关于公有云平台,企业主要顾虑的问题就是单一供应商绑定。一旦绑定,数据和业务迁移困难,后续发展可能缺少选择;一旦云平台出现故障,是否有异构容灾能力,是否会对业务形成不可逆的影响等。
关涛认为,现在的云服务分层解耦愈来愈清晰,各基础服务接口将来会更加标准,例如容器化和 K8S 等,这些标准化服务会大幅下降用户被单一云平台绑定的顾虑。此外,主流云厂商已经在提供必定程度的异构容灾能力,例如阿里云的 3AZ 方案,能够保证跨数据中心的可靠性,技术上可以知足异构容灾需求;若是用户追求极致容灾能力,有可能选择混合云或者多家云厂商,这须要在多云平台之上,再作一层数据管理和业务同步逻辑,会给架构带来很大的技术和成本压力。固然,这还最终取决于用户的需求,只是目前这种选择应该比较少,例如,在金融数据库领域,企业不多同时选择两种数据库方案。
结语
从长线来看,关涛认为,用户自建本地大数据服务会逐渐消亡。就国外云计算的发展进程来看,不少大企业选择上云看重的可能并非 IaaS 层面的能力,而是大数据和 AI 等偏上层的能力,这些现象足以说明用户不只会用 IaaS 的能力,而且可能会被上层能力吸引。
据此,阿里云大数据服务接下来将集中对以下几方面进行改进:一是做为大数据引擎,随着数据爆发式增加和计算的无处不在,性能、成本、扩展性和稳定性仍然是技术重点;二是非文本类数据的处理能力,包括识别、处理音、视、图等新数据格式,例如短视频推荐场景;三是非关系型数据处理,例如图计算、Graph Embedding;四是 AI for BigData,好比在海量数据的前提下,基于 AI 的智能数据管理、智能建模与数据优化等。
各位网友,你如何看待云平台和本地大数据服务之间的关系呢?你所在的企业又是如何选择的呢?
本文转载于InfoQ,原文连接 https://www.infoq.cn/article/...*yuqxJH
了解阿里巴巴大数据计算服务访问 https://www.aliyun.com/produc...