做者:LJ MIRANDAgit
翻译:老齐github
与本文相关的书籍:《跟老齐学Python:数据分析》《数据准备和特征工程》服务器
数据科学领域突飞猛进,在当今时代,用诸如“21世纪最性感的工做”和“数据是新的石油”等说法来强化数据科学,已经并不时髦了,取而代之的是更现实的商业问题和更理性的技术挑战,数据科学所面对的变化,就是这两个方面。所以,如今须要咱们作的:(1)分析来自生产和实验的需求,(2) 云技术的快速应用。markdown
首先,生产需求多年来一直在增加。例如:在软件工程生命周期内建立数据产品或发布实验产品。随着机器学习工程师和数据科学软件开发人员的崛起,出现了愈来愈多的工程类就业岗位,这就是明证。此外,数据分析再也不局限于把图表印刷出来,在产品发布、实验过程的重现等方面都有普遍需求,而且这种需求不断增加。框架
其次,数据的指数增加使云计算成为大势所趋。咱们没法用本身的笔记本电脑加载1TB的数据集!Docker和Kubernetes等工具的流行,使咱们可以之前所未有的水平扩大数据处理的工做量。使用云技术,意味着咱们要考虑系统的可伸缩、资源配置和有关基础设施。然而,尽管以前的Jupyter生态系统是数据科学家工具箱的一个主要组成部分,但它并不适用于这些变化:机器学习
正如我说过的,咱们所知道的Jupyter并不适用于这些变化。Jupyter生态系统适合探索,不适合生产。庞大的数据应该在一台机器上、而不是在一组机器上运行。然而,在过去的五年中,Jupyter的生态系统已经发展壮大。咱们如今有了JupyterLab、一些插件、用于其余语言的新内核,以及可供咱们使用的第三方工具。固然,咱们仍然能够经过在终端中键入jupyter notebook
来运行,可是如今这种作法已经远远不能知足需求了!jvm
这就引出了一个问题:是什么力量促成了这些变化?,咱们如何利用这个更大的notebook生态系统来应对当今数据科学的变化?工具
Jupyter笔记本电脑生态系统正在成长,我认为这是由三种力量驱动的:oop
云平台:大数据须要大量的计算和存储,而普通消费者所用的机器并不老是可以知足须要。学习
开发环境:愈来愈多的数据科学团队开始采用软件工程的最佳实践方案——git、pull requests等版本管理操做。
从分析到生产的快速推动:在受控环境下检验假设是不够的,为分析而编写的软件应易于在产品中重复使用。
趋向“云优先”的环境意味着咱们能够借助更强大的机器来执行基于notebook的任务。例如,将项目放到服务器上,就可以在远程运行Jupyter,这个远程服务器容许作各项相关环境配置。另外一方面,生产工做的日益流程化为咱们提供了一系列工具,使咱们可以用基于Jupyter的工具完成开发工做。我将在本文的下一部分展现更多这样的工具。
最后,请注意,工具的增加并不依赖于单个实体或组织。正如咱们稍后将看到的,填补这些空白的多是贡献第三方插件的我的或组织。
在本系列的第一部分中,咱们研究了数据科学领域的两个驱动因素:(1)云计算技术,(2)不断增加的生产需求。咱们看到Jupyter只占这个生态系统的一小部分。也就是说,Jupyter生态系统常常用于探索(而不是生产),只在本地机器上运行(而不是在云端)。
而后,使用相同的框架,咱们肯定了致使变化的三种力量,它们使Jupyter生态系统得以发展。这些力量可能促进了新工具、插件和产品的开发,以知足实际需求。
在本系列的下一部分中,我将讨论如何使用Jupyter来应对这些变化。我将介绍一些工具和工做流程,它们在平常工做和辅助项目中成为个人助力。敬请关注。
原文连接:ljvmiranda921.github.io/notebook/20…
搜索技术问答的公众号:老齐教室
在公众号中回复:老齐,可查看全部文章归类。