【译】Jupyter不断演进的三大动力

做者：LJ MIRANDAgit

翻译：老齐github

与本文相关的书籍：《跟老齐学Python：数据分析》《数据准备和特征工程》服务器

数据科学的发展情况

数据科学领域突飞猛进，在当今时代，用诸如“21世纪最性感的工做”和“数据是新的石油”等说法来强化数据科学，已经并不时髦了，取而代之的是更现实的商业问题和更理性的技术挑战，数据科学所面对的变化，就是这两个方面。所以，如今须要咱们作的：(1)分析来自生产和实验的需求，(2) 云技术的快速应用。markdown

首先，生产需求多年来一直在增加。例如：在软件工程生命周期内建立数据产品或发布实验产品。随着机器学习工程师和数据科学软件开发人员的崛起，出现了愈来愈多的工程类就业岗位，这就是明证。此外，数据分析再也不局限于把图表印刷出来，在产品发布、实验过程的重现等方面都有普遍需求，而且这种需求不断增加。框架

其次，数据的指数增加使云计算成为大势所趋。咱们没法用本身的笔记本电脑加载1TB的数据集！Docker和Kubernetes等工具的流行，使咱们可以之前所未有的水平扩大数据处理的工做量。使用云技术，意味着咱们要考虑系统的可伸缩、资源配置和有关基础设施。然而，尽管以前的Jupyter生态系统是数据科学家工具箱的一个主要组成部分，但它并不适用于这些变化：机器学习

正如我说过的，咱们所知道的Jupyter并不适用于这些变化。Jupyter生态系统适合探索，不适合生产。庞大的数据应该在一台机器上、而不是在一组机器上运行。然而，在过去的五年中，Jupyter的生态系统已经发展壮大。咱们如今有了JupyterLab、一些插件、用于其余语言的新内核，以及可供咱们使用的第三方工具。固然，咱们仍然能够经过在终端中键入jupyter notebook来运行，可是如今这种作法已经远远不能知足需求了!jvm

这就引出了一个问题：是什么力量促成了这些变化?，咱们如何利用这个更大的notebook生态系统来应对当今数据科学的变化?工具

三股变革的力量

Jupyter笔记本电脑生态系统正在成长，我认为这是由三种力量驱动的：oop

云平台：大数据须要大量的计算和存储，而普通消费者所用的机器并不老是可以知足须要。学习
开发环境：愈来愈多的数据科学团队开始采用软件工程的最佳实践方案——git、pull requests等版本管理操做。
从分析到生产的快速推动：在受控环境下检验假设是不够的，为分析而编写的软件应易于在产品中重复使用。

趋向“云优先”的环境意味着咱们能够借助更强大的机器来执行基于notebook的任务。例如，将项目放到服务器上，就可以在远程运行Jupyter，这个远程服务器容许作各项相关环境配置。另外一方面，生产工做的日益流程化为咱们提供了一系列工具，使咱们可以用基于Jupyter的工具完成开发工做。我将在本文的下一部分展现更多这样的工具。

最后，请注意，工具的增加并不依赖于单个实体或组织。正如咱们稍后将看到的，填补这些空白的多是贡献第三方插件的我的或组织。

结论

在本系列的第一部分中，咱们研究了数据科学领域的两个驱动因素：（1）云计算技术，（2）不断增加的生产需求。咱们看到Jupyter只占这个生态系统的一小部分。也就是说，Jupyter生态系统常常用于探索（而不是生产），只在本地机器上运行（而不是在云端）。

而后，使用相同的框架，咱们肯定了致使变化的三种力量，它们使Jupyter生态系统得以发展。这些力量可能促进了新工具、插件和产品的开发，以知足实际需求。

在本系列的下一部分中，我将讨论如何使用Jupyter来应对这些变化。我将介绍一些工具和工做流程，它们在平常工做和辅助项目中成为个人助力。敬请关注。

原文连接：ljvmiranda921.github.io/notebook/20…

搜索技术问答的公众号：老齐教室

在公众号中回复：老齐，可查看全部文章归类。