Spark的危机与机遇：将来必然是AI框架倒推数据处理框架

时间 2019-11-29

原文原文链接

做者 | 祝威廉，主要关注大数据/机器学习方向，算法

现丁香园资深数据架构微信

来源 | 经受权转载自简书架构

AI 前线导读：上周，在 Spark+AI Summit 大会上，Spark 和 Mesos 的核心做者兼 Databrick 首席技术专家 Matei Zaharia 宣布推出开源机器学习平台 MLflow，这是一个可以覆盖机器学习全流程（从数据准备到模型训练到最终部署）的新平台，旨在为数据科学家构建、测试和部署机器学习模型的复杂过程作一些简化工做。Matei 表示，研究工做主要围绕着“如何为开发者提供相似谷歌 TFX、Facebook FBLearner Flow 等平台相似的好处，可是要以开放的方式——不只在开源的意义上开放，并且是可使用任何工具和算法的意义上开放"的想法展开。AI 前线对这个平台进行了详细报道，详见《Spark 团队开源新做：全流程机器学习平台 MLflow》。

对于这个全新的机器学习平台，你们存在各类各样的疑问，包括 MLflow 的定位是什么？它与 TensorFlow 之间是什么样的关系？今天咱们带来了祝威廉老师对于 MLflow 的一些见解，供你们参考。

更多优质内容请关注微信公众号“AI 前线”，（ID：ai-front）

MLFlow

上周发了一篇文章《Spark 团队新做 MLFlow 解决了什么问题》（https://www.jianshu.com/p/2ed60a1dc764 ）描述了我对 MLFlow 的一些见解，如今想来，Spark 团队是很是聪明的，AI 同窗都有本身的社、本身的生态，Spark 则是在工程研发群体具备很大的影响力，而在 AI 领域并无太大号召力。因此它实际上是没办法经过一个颠覆性的东西去让 AI 同窗转移过来的，而 MLFlow 并无改变 AI 同窗的原有习惯和流程，它提供了一些辅助工具和标准，解决了一些痛点，慢慢渗透，从而实现慢慢转型，固然，最后也彻底可能也掀不起什么波澜。框架

Spark 光鲜背后的挑战

第一个即是 AI 浪潮崛起，对 Spark 便是危机也是机遇。DataBrick 如今一直宣称本身是一家 AI 公司，不过你可能会好奇，为何 Spark 背后的 DataBrick 公司很差好固守数据处理方面的优点，而不断尝试转型 AI 呢？刨去整个资本市场和技术浪潮不谈，其实最大的问题是 将来必然是 AI 框架倒推数据处理框架。AI 框架极可能衍生出适合本身的数据处理框架，好比 TensorFlow，对 tf.data 进行了很大的加强，方便作数据处理。若是 Spark 不主动出击，将来会很被动。机器学习

第二个就是流式了，随着流式时代的来临，而在此以前 Spark 在流式领域一直不紧不慢，加固在批处理方面的优点的同时也丧失了流领域的先机，不少公司（尤为是云公司，好比阿里云、华为等）都转向 Flink。我在 16 年的时候，就不断强调流式计算的重要性，好比这篇文章《数据天生就是流式的》（https://www.jianshu.com/p/9574e359ce35 ），为此还专门创建了一个专题。这也使得 Spark 在传统数据处理领域不断遭受新的挑战。函数

步履日渐沉重

Spark 还提出了一个 Hydrogen 设计，从而使得 Spark 可以更好地结合深度学习框架。从某种角度而言是顺应形势，但实际上是在转型 AI 的状况下不得已而为之。工具

依然是王者

Spark 依然是我用过最好用的工具，依然有最好的生态。基于它之上，作不少事情会变得很轻松。学习

后话

其实我以为和 AI 进行适配，不必定是朝着整合 AI 框架的方向发展。前面咱们提到 将来必然是 AI 框架倒推数据处理框架，只要让 Spark 可以更好的为 AI 作数据预处理，成为事实标准，而且适配主流 AI 框架，那么 Spark 必然会有一个新的护城河。最简单的例子，Spark 2.3 已经支持图片处理了，可是其实仍是蛮多问题的，是能够作得更好的。另外能不能支持张量？总之最好的策略实际上是压缩 AI 框架的边界，保证 Spark 在数据处理方面的绝对垄断地位。我在实际使用中发现，不少数据预处理，Spark 目前作起来是不方便的，非得用 AI 算法库的函数。测试

固然，还有就是加速流的发展，而且加大这方面的宣传和投入，肯定在数据处理第二阶段依然可以保持领先优点。大数据

原文连接：

https://www.jianshu.com/p/2dc96dfc89c8