【观察】当红炸子鸡Snowflake

做为近期火爆的话题之一,snowflake的上市无疑吸引了不少人的眼球。那在其高涨的市值背后,又有着什么样的缘由?它会一直火爆下去吗?云计算、大数据,这些彷佛已经有些落伍的概念,为什么又从新吸引了人们的眼球?本文综合了多篇资料,尝试从更多角度加以解读。
数据库

1. 初识Snowflake公司安全

     人生基本上就是两件事,选题和解题。最好的人生是在每一个关键点上,既选对题,又解好题。人生最大的痛苦在于解对了题,但选错了题,并且还不知道本身选错了题。正如人生最大的遗憾就是,不是你不行,而是你本能够。微信

1).基本状况:云数据服务公司网络

Snowflake Inc.是一家成立于2012年,总部位于加州圣马特奥,主营云数据存储的创业公司,旨在为客户提供一种基于云计算的数据存储、管理和分析服务。Snowflake在新加坡、加拿大、印度、美国和西欧设有25个办事处,员工总数达1400余人。它的启动资金为90万美圆,但在建立当年,就拿下了 500万美圆的融资。架构

上图是摘自Snowflake公司官网。从中能够看出,Snowflake主要提供云计算数据仓库解决方案,包括数据处理的多样化服务、数据扩容、数据计算资源动态整合、多区域多云以及数据的安全无缝共享。其产品能将原有的本地数据平台升级成为创建在Azure、AWS、GCP云厂商的解决方案,并为企业提供高性能、易扩张的环境去存储大规模的信息。运维

2).融资状况:多轮看涨,一路向上机器学习

Snowflake过去共经历了8轮融资,从上图中不难看出其估值的快速增加。这里面不乏红杉资本、巴菲特、Salesforce这些市场热点话题。目前仍处在亏损状态的Snowflake,在IPO阶段引来了巴菲特以及SaaS巨头Salesforce两家公司的双双押注。股神巴菲特和Salesforce的投资放大了这种看涨情绪,散户投资者纷纷买入该股。对于巴菲特近些年来一改过去长期投资、稳定保守风格,积极进驻科技股、概念股、创投股,这次投资Snowflake正是看好科技股概念。而Saleforce的出手,则背后含义更多。Salesforce近年来在资本市场上频频出手,2009年成立至今,已经超过500个投资,今年前半年刚刚完成对Tableau的收购。Salesforce正在积极布局以数据为中心的SaaS生态体系,CRM自己就是对客户数据的管理,而Tableau见长于数据可视化展示,而Snowflake会拥有客户的整个数仓数据。编辑器

3).创始团队:专业+行业+投资大咖组合工具

Snowflake管理者从左到右:联合创始人Benoit Dageville,首席执行官Frank Slootman,联合创始人Thierry Cruanes和首席财务官Mike Scarpelli。创始人们在2012年创立Snowflake的时候,都有20年左右的工做经验。该公司首席执行官弗兰克•斯洛特曼(Frank Slootman)在加入Snowflake以前已退休,此前他曾于2019年将ServiceNow和Data Domain带领上市。他接任的首席执行官鲍勃·穆格里亚(Bob Muglia)曾在微软待了23年,拥有丰富的数据库经验。说ToB行业越老越吃香并不为过,经验大于一切。如此深厚的资历、数据库领域的专业深度、硅谷技术圈、投资圈的人脉积累,都是Snowflake 成功IPO的要素。oop

4).业绩表现:高速、健康、将来可期

  • 业绩高速增加

业绩增加曲线(百万美圆)(来源:招股书)

虽然仍在亏损状态,但Snowflake的净亏损已有收窄迹象:今年1月底,公司净亏损为3.485亿美圆,截至今年7月末,净亏损降至1.772亿美圆,毛利率由去年1月的46.5%升至61.6%。亏损收窄以外,爆发式增加的业绩更引人注目:2020财年,Snowflake的营收为2.65亿美圆,同比增加174%。到2021财年上半年即截至今年7月末,其营收达到2.42亿美圆,同比增加133%,第二季度收入同比增加121%,预计整年营收或将超5亿美圆。 

  • 用户结构健康

《单客户平均销售额(美圆)》(来源:招股书)

续约率越高、服务的客户越大型、客单价越高,意味着SaaS厂商的利润更高,模式越健康。截至2019年和2020年7月31日,在过去12个月产品收入中贡献超过100万美圆的客户数量分别从22个增长到56个,说明Snowflake在大客户中的承认度很高且在不断提高。

5).技术架构:存算分离,服务独立

  • 存储层(Storage目前支持AWS S3和Azure Blob。全部数据在存储层被所有加密以及columnar压缩,最大限度的优化存储效率。理论上讲,存储层能够在无关计算资源的状况下进行无限扩容,因此咱们不须要加任何节点就能自动沉淀全部数据,这也是为何Snowflake也能够做为data lake的缘由。

  • 计算层(Compute由诸多virtual warehouse组成,其本质就是处理数据的虚拟机节点。Snowflake很贴心地用T-shirt尺寸定义了算力,相比较其余云计算资源,极大地简化了provision的过程。因为计算层独立于存储层存在,咱们能够想象出不少传统架构中遇到瓶颈的应用场景。譬如能够随时提升或下降计算资源以应对需求,能够在搬运数据的同时进行查询,能够给各个LOB提供合适的资源并独立出ETL和DevOps的处理需求。而最使人兴奋的是,这些不一样计算资源看到的都是同一版本的数据。

  • 服务层(Services的独立是另外一个Snowflake走在正确道路上的缘由。它由众多global services组成,涵盖了咱们传统意义上数据仓库的诸多admin任务,包括operation management,optimization,tuning,security,availability,metadata,caching等等。这一层还有transaction management这个重要的使命,对全部计算层的virtualwarehouse进行管理,保证不一样的数据处理请求被高效稳定地应用在存储层的同一数据上。服务层解决了数据仓库易用性的问题,目前我尚未看到任何一款数据平台产品可以帮用户处理这么多的非功能性任务。即便是同为云数据仓库的Azure Data Warehouse,须要的管理和运维成本不可同日而语。

总结一句,Snowflake在公有云厂商即IaaS上再建了一个高扩展且集中管理的数据仓库—是云设施上的云


2. Snowflake公司上市

     人生基本上就是两件事,选题和解题。最好的人生是在每一个关键点上,既选对题,又解好题。人生最大的痛苦在于解对了题,但选错了题,并且还不知道本身选错了题。正如人生最大的遗憾就是,不是你不行,而是你本能够。

1).上市表现:美股今年最大IPO

Snowflake (NYSE:SNOW)于美国时间9月16日,在美国纽交所上市,发行价为120美圆,首日开盘翻倍,开盘报245美圆,上市首日市值高达708亿美圆。截止10月23日(美国时间),其股价为265.05美圆。下图是snowflake仅一个月来的股价变化。

在股市优异的表现背后,对比下一样来自数仓仓库的另两家企业。Teradata,老牌数仓厂商,已发展四十余年,连续十年数据仓库领域领导者厂商。Cloudera,大数据生态领导厂商,2018年与Hortonworks合并,是Hadoop的表明性厂商。Teradata,2019财年营收为18.99亿美圆,但当前市值仅为27亿美圆;成立于2008年的Cloudera,其2020财年营收达7.94亿美圆,而当前市值也仅有39亿美圆。即便仅以snowflake的较低市值估算,三者的对比也是惊人的。下图来自36氪据公开资料整理。

为何人们对snowflake的预期这么高呢?

2).市值高的缘由

  • 概念突出:云计算+大数据

从上图中可见,随着时代的变迁,市值高的企业呈现明显的行业特色。近些年来,以互联网软件为表明的企业处于风头浪尖。这其中又以人们常说的ABCD,最为最煊赫一时。所谓的“ABCD”,即“AI”、“Blockchian”、“Cloud Computing”、“BIgData”的首字母。Snowflake正是占据了云计算与大数据两项概念加成。

  • 业绩突出:现状良好+预期空间巨大

从以前对snowflake的介绍可知,其近段时间的业绩表现良好。但更为重要的是将来市场空间巨大,仍有很大上涨空间。根据Snowflake预测,截至2020年1月31日,云数据平台的潜在市场机会约为810亿美圆;根据IDC数据,数据管理和商业智能等分析工具的市场将在2020年末达到560亿美圆,到2023年将达到840亿美圆;Snowflake数据共享能力的市场目前还没有被量化,潜力巨大。


3. Snowflake产品技术特色

     人生基本上就是两件事,选题和解题。最好的人生是在每一个关键点上,既选对题,又解好题。人生最大的痛苦在于解对了题,但选错了题,并且还不知道本身选错了题。正如人生最大的遗憾就是,不是你不行,而是你本能够。

受到如此火爆的追捧,snowflake从技术、产品直到战略,都有着本身独到之处。能够说snowflake的发展过程,既是云原生技术体系逐步商业化落地的过程,更是几位领导者对”商业+技术”孜孜不倦的探索和追求,最终实现并释放出巨大商业价值的过程。一切看似意外,实则瓜熟蒂落。下面我就择其主要关键几点加以说明:

1).抓住风头,全栈上云

云计算技术正在重构整个IT基础设施,做为基础软件之一的数据库也不例外。咱们能够看到软硬件在一切基础设施中逐渐被解耦。硬件的更新迭代速度必然会进一步放缓或者变得不那么重要,成本进而更加透明和标准。这一变革正在发生并不断加速,有更多的用户享受云端带来的便捷、弹性。而Snowflake很好地抓住了这一时间点。其首先完成的就是“ALL IN CLOUD”,搭上云计算这趟高速列车。其所有云化的商业模式,将其与传统企业级商业套件区别开来。由于其相信,将来必定是属于公有云的。

咱们看个简单的对比,以数据库传统巨头Oracle、转型者Microsoft和后来者Amazon在数据库市场的变化趋势能够看到。云战略对数据库市场发展的影响有多么巨大。当年Oracle一家独大的格局正以肉眼可见的速度被瓦解。再看看另一些后起之秀,专门为机器学习和自动学习等大规模数据处理而生的Databricks(年初完成F轮融资,估值62亿美金),以及托管文档型数据库公司MongoDB(当前市值156亿美金)等等。

2).独立自主,混合为上

Snowflake在云端的战略上,没有选择本身构建云基础设施,而是将底层构建在几乎全部主流公有云服务提供商。这也是Snowflake精准的判断对了将来云计算的发展形势,必然在“多云”环境。在大企业(尤为是Snowflake针对的Fortune 500客户)中,一般都是用混合云架构,即便在管理上有各类不便,即便每一个云厂商也都有与Snowflake竞争的产品(AWS Redshift, GCP BigQuery,Azure ADW);但就是由于大企业怕绑定到单一云厂商,失去议价能力。Snowflake敏锐观察到这点,从初始就选择了技术独立性,与多云环境适配,这样就能够解决潜在的数据迁移这一云计算的大难题。

不一样云厂商产品各有其优点,加之大企业内部关系复杂,使用混合云策略,能够很好地兼顾这些问题。这也是给第三方供应商提供了更好的机会。经过第三方供应商可以在云上对线下及云端、关系型和非关系型数据库进行统一管理后,以往因为被保存在不一样地方而形成的数据孤岛问题便消失了。与此同时,经过建立了一个统一入口,让用户可以按照以往访问关系型数据库的语言,对背后全部的数据库进行访问,几乎不改变原有使用习惯,这样大大下降了使用复杂度。

基于上面两点,依托三大公有云厂商,Snowflake的“云数仓”的架构让客户可以以低成本、高效率随时扩容和缩容。Snowflake平台还具备在任何云上工做的优点,并容许客户在不一样的云之间转移数据,这是其竞争对手—“大型且成熟的公有云提供商,包括AWS、Azure和GCP”—难以提供的。

3).真云架构,存算分离

从上世纪70年代后期提出的数仓概念后,一直存在两个核心问题:存储与计算。在以前的架构中,计算与存储的能力是固定比例的,用户在购买之初就进行了限定。可是随着对数据分析需求的不断增加、分析方式的不断变化,这种固定比例的方式早已不在适用。随着云计算的兴起,有很多厂商基于云基础设施构建数仓,但不少都是一种“伪云”架构。以下图是以AWS的redshift为例,用户申请的计算资源是与固定一组的存储资源对应。计算资源与存储资源可实现必定程度的ScaleUp和ScaleOut,但其仍是依赖于固定比例,而没有作到真正解耦。

而Snowflake则彻底摒弃了这一点。基于三大公有云基础实施,实现二者的彻底独立。

4).收费后置,量化过程
做为一般的系统软件的计费方式,一般是须要按固定年费提早支付。尤为对于
成本节省型产品,但因为没法量化日后的使用程度或深度,客户更加难以衡量投入产出比,因此仍会形成必定使用门槛。某种程度来说,这是对客户的一种不公平。客户常常抱怨,收费被前置,看不到效果;使用过程不透明,成本没法量化。而Snowflake的商业模式,客户再也不提早支付一笔固定年费,平台将彻底根据客户在使用过程当中实际消耗的计算和存储用量进行结算—实现成本可测。 其次,基于对单位资源消耗的真实统计,客户才能与传统模式下各个环节的投入进行对比,最终得到跟报告里同样精准的ROI—实现回报可测。 而这种更为真实的“按需付费”模式的背后,是一套全新的产品设计和技术架构。在成本核算上,存储成本已经比较透明,但计算的成本差别很大。用户可根据自身的需求和预算选择如何计算。经过对存储和计算解耦,用户的成本得以量化且可控在计费模式上,存储的价格跟其余公有云并没有差别,可是计算的价格则被分红了八个等级(如同选购T-Shirt同样),以便客户根据需求单独对存储或计算扩容。而在需求降低时,平台还自动为客户缩容。

以往使用公有云时,到底消耗了多少存储和多少计算资源,任何厂商都不会向客户透露。但在Snowflake这里,存储是存储,计算是计算,服务是服务,构成了其产品的三层架构。

5).回归初心,定位数仓
Snowflake对本身的定位是一家企业“数据仓库”的云服务提供商。曾经有一段时间,各类各样的数据使用理念层出不求。不过从近几年的发展来看,你们视线逐渐清晰,回归数据的实质,发现企业的经营数据、结构化数据才是数字化转型的重中之重、立足之根本,因此技术路线都逐步调整在若是构建好大数据下的企业新一代数据仓库之上。以Cloudera为例,20十二、2013年红极一时,如今的光景使人唏嘘。因此,无可厚非的一点,大数据将来之路在于企业数仓这块阵地的争夺。Snowflake做为拥有全新数仓技术架构的技术公司无疑切中了要害。

6).统一服务、数仓升级

Snowflake在依托底层的公有云基础设施之上,构建了完善的数据服务能力。经过统1、标准化的服务,支持企业内部各种数据应用。与此同时,Snowflake还着眼于企业外部,在其客户之间创建共享数据的平台。造成具有必定网络效应的数据共享平台,更进一步发挥数据价值。将传统数据仓库的内容,进一步向外延伸…并造成以下图所示的路径。基于多云架构,构建云原生数据仓库,再升级到云数据平台,并最终造成数据云服务。真正实现了DaaS(Data as a Service)。

7).总结:数仓演进之路

从Snowflake的产品技术发展特色,能够勾勒出数据仓库演进的一条路径。

  • Shared-disk DW

    传统数仓,受限于单机计算与存储资源。后来,以Oracle RAC为表明的Shared-disk架构,解决了部分计算资源不足问题,但针对存储的容量、性能需求没法知足。其巅峰表明就是Oracle Exadata。

  • Shared-nothing DW

    随之发展出的Shared-nothing架构,其大大突破了原有架构的规模限制,可提供很是大的存储与计算能力。但二者仍然具备必定绑定关系,没法彻底解耦;同时在弹性、性能、成本等上仍有不足。其典型表明就是Greenplum。

  • Half-cloud DW (IaaS)

    以后出现的云基础设施,解决了部分上述问题。数仓可基于云端环境进行构建,但实质上仍是基于底层Iaas能力,没有解决根本性问题。其资源上没有实现存算分离,仍然会致使数据自己大量的迁移。比较典型的产品是AWS Redshift。

  • Cloud-native DW(PaaS)

    云原生数仓,解决了存算分离的问题,从本质上解决了以往架构的痛点。用户在容量、性能上几乎没有了限制。比较典型的如BigQuery。

  • HybirdCloud DW(DBaas)

    在云原生数据仓库的基础上,不在局限在某一云厂商,而是提供了多云的能力,暴露出独立的数据库类的服务。例如Snowflake。

  • Cloud-service DW(SaaS)

    暴露出独立的数据仓库服务,不在是以PaaS的形式输出,而是以更高阶的SaaS服务。用户只需关心服务层面,而不用下沉到具体的计算资源、存储资源等层面。例如Snowflake。

  • Data-service Cloud(DaaS,Data Cloud)

    以数据为主要核心的服务形式,不在局限于底层细节处理。尚无产品达到这一阶段…有些理想化吧


3. 写在最后:方兴未艾的数据()库市场

     人生基本上就是两件事,选题和解题。最好的人生是在每一个关键点上,既选对题,又解好题。人生最大的痛苦在于解对了题,但选错了题,并且还不知道本身选错了题。正如人生最大的遗憾就是,不是你不行,而是你本能够。       

今天谈到的Snowflake,只是数仓领域的一个缩影。从Snowflake受到资本市场的关注,能够看出数仓(或者说数据分析领域)仍会是将来基础设施中很是值得关注的方面。进一步说,数据自己将在将来发挥更大的做用。




韩锋频道:

关注技术、管理、随想。


长按扫码可关注





本文分享自微信公众号 - 韩锋频道(hanfeng_channel)。
若有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一块儿分享。

相关文章
相关标签/搜索