做者 | 祝威廉,主要关注大数据/机器学习方向,算法
现丁香园资深数据架构 微信
来源 | 经受权转载自简书架构
上周发了一篇文章《Spark 团队新做 MLFlow 解决了什么问题》(https://www.jianshu.com/p/2ed60a1dc764 )描述了我对 MLFlow 的一些见解,如今想来,Spark 团队是很是聪明的,AI 同窗都有本身的社、本身的生态,Spark 则是在工程研发群体具备很大的影响力,而在 AI 领域并无太大号召力。因此它实际上是没办法经过一个颠覆性的东西去让 AI 同窗转移过来的,而 MLFlow 并无改变 AI 同窗的原有习惯和流程,它提供了一些辅助工具和标准,解决了一些痛点,慢慢渗透,从而实现慢慢转型,固然,最后也彻底可能也掀不起什么波澜。框架
第一个即是 AI 浪潮崛起,对 Spark 便是危机也是机遇。DataBrick 如今一直宣称本身是一家 AI 公司,不过你可能会好奇,为何 Spark 背后的 DataBrick 公司很差好固守数据处理方面的优点,而不断尝试转型 AI 呢?刨去整个资本市场和技术浪潮不谈,其实最大的问题是 将来必然是 AI 框架倒推数据处理框架。AI 框架极可能衍生出适合本身的数据处理框架,好比 TensorFlow,对 tf.data 进行了很大的加强,方便作数据处理。若是 Spark 不主动出击,将来会很被动。机器学习
第二个就是流式了,随着流式时代的来临,而在此以前 Spark 在流式领域一直不紧不慢,加固在批处理方面的优点的同时也丧失了流领域的先机,不少公司(尤为是云公司,好比阿里云、华为等)都转向 Flink。我在 16 年的时候,就不断强调流式计算的重要性,好比这篇文章《数据天生就是流式的》(https://www.jianshu.com/p/9574e359ce35 ),为此还专门创建了一个专题。这也使得 Spark 在传统数据处理领域不断遭受新的挑战。函数
Spark 还提出了一个 Hydrogen 设计,从而使得 Spark 可以更好地结合深度学习框架。从某种角度而言是顺应形势,但实际上是在转型 AI 的状况下不得已而为之。工具
Spark 依然是我用过最好用的工具,依然有最好的生态。基于它之上,作不少事情会变得很轻松。学习
其实我以为和 AI 进行适配,不必定是朝着整合 AI 框架的方向发展。前面咱们提到 将来必然是 AI 框架倒推数据处理框架,只要让 Spark 可以更好的为 AI 作数据预处理,成为事实标准,而且适配主流 AI 框架,那么 Spark 必然会有一个新的护城河。最简单的例子,Spark 2.3 已经支持图片处理了,可是其实仍是蛮多问题的,是能够作得更好的。另外能不能支持张量?总之最好的策略实际上是压缩 AI 框架的边界,保证 Spark 在数据处理方面的绝对垄断地位。我在实际使用中发现,不少数据预处理,Spark 目前作起来是不方便的,非得用 AI 算法库的函数。测试
固然,还有就是加速流的发展,而且加大这方面的宣传和投入,肯定在数据处理第二阶段依然可以保持领先优点。大数据
原文连接:
https://www.jianshu.com/p/2dc96dfc89c8