译者注:本文的英文原文地址是:Python for Data Science vs Python for Web Development,发布时间是10月29日。译者一开始在Python日报上看到推荐,初步看看了,以为对于决定学习Python的方向有必定参考价值。不过,在翻译过程当中,愈来愈以为这其实就是一篇搞Python数据科学培训的公司写的软文,里面写的内容仍是比较浅的,只适合像我这样的初学者了解大体状况。固然,文章提到了Python做为网络开发技能的市场需求并非很高,这点感受并非没有根据。做为一篇软文,它成功地激起了我学习数据科学的兴趣,而缘由嘛,天然就是作数据科学工做的工资比通常开发工做,高不少(按文章中信息图的数据,比通常岗位的年薪高5万美刀!!!)!python
Python编程语言拥有诸多用于网络应用开发、图形用户界面、数据分析、数据可视化等工做的框架和特性。Python可能不是网络应用开发的理想选择,可是正被不少机构普遍用于评估大型数据集(dataset)、数据可视化、进行数据分析或制做原型。在数据科学领域,Python编程语言正不断得到用户的亲睐,而做为网络开发语言,Python显得有点过期了。本篇博文,就是要对这两种大相径庭的Python使用方式,进行详细的对比,而且帮助你们明白一点:若是要利用Python作数据科学工做,并无必要了解它用于网络开发的部分。程序员
从顶级金融机构到最小的大数据创业公司,各行各业、各类规模的机构都在使用Python编程语言支撑业务运做。Python做为数据科学编程语言,不只受顶级大数据公司欢迎,还有众多技术创业企业拥泵。它还位列2015推荐学习的前10种编程语言。web
世上只有两种编程语言:一种是老是被人骂的,一种是历来没人用的。
-- <cite>Bjarne Stroustrup</cite>正则表达式
Python属于前一种,并且日益被用于数学计算、机器学习和多种数据科学应用。除了性能依赖性强和底层的业务外,它可以作其余任何事情。利用Python编程语言的最好选择,就是作数据分析和统计计算。学习面向网络开发的Python,须要程序员掌握像Django这样的多种网络框架协助建设网站;可是学习面向数据科学的Python,则要求数据科学家学习如何使用正则表达式和科学计算库,并掌握数据可视化的概念。因为目的、方向不一样,那些不了解Python网络开发的程序员,能很轻松地走上利用Python编程语言作数据科学工做的道路。算法
Python是一个有着23年历史的强大动态编程语言,语言表现力很强。程序员编码完成后,不须要编译器便可运行程序。面向网络开发的Python支持多种编程范式,包括结构化编程(structured programming)、函数式编程(functional programming)和面向对象编程(object-oriented programming, OOP)。Python代码能够很容易地嵌入到许多拥有编程接口的网络应用中。可是,Python更是开发学术研究和科学计算程序的绝佳选择,这些程序要求运行快速、数学计算精确。数据库
而面向网络编程的Python,则要求程序员学习多种网络开发框架,这个学习难度比较大,由于现有Python网络开发框架的文档不太容易理解。固然,不容否定的是,要想利用Python开发一个动态网站或网络应用,学习网络框架是必需的。编程
目前,Python社区已经有多种免费的网络应用开发框架,好比:数组
Django是帮助完美主义者按时完成工做的Python网络开发框架(译者注:原文是Django is the python web development framework for perfectionists with deadlines。这也是Django官网上对该框架的描述)。使用Django进行网络开发,最适合的场景是开发那些依靠数据库驱动,同时也具有相似自动化后台管理界面和模板系统等炫酷功能的应用。对于不须要太多功能的网络开发项目来讲,Django多是大材小用,主要是它的文件系统容易让人搞混,并且文件目录结构要求严格。使用Django进行Python网络开发的公司有纽约时报、Instagram和Pinterest(译者注:Pinterest联合创始人Paul Sciarra在Quora上的回答提到了使用Django,Quora地址)。网络
Flask是针对初学者的框架,它简单,轻量,初学者很快就能够上手开发单页网络应用。这个框架并不支持验证,没有数据抽象层和其余许多框架所包括的组件。它不是一个全栈开发框架,也只用于小型网站的开发。(译者注:其实Pinterest也使用了Flask,只是没用在整站开发上,而是用来开发API,具体见连接。)app
CherryPy框架强调要符合Python语言规范,作到程序员像进行面向对象编程同样开发网络应用。它仍是诸如TurboGears和Web2py等流行全栈框架的基础模板引擎。
还有不少其余框架,包括Pyramid、Bottle和Pylons等,可是不管Python开发者使用哪种框架,他/她都要花精力仔细地研究教程和文档。
Python做为网络开发语言,极可能是一个不太现实的选择:
面向网络开发的Python须要非标准化、昂贵的主机服务,尤为是程序员使用流行的Python网络框架开发网站时。因为利用PHP进行网络编程如此的便捷,大部分的用户没有兴趣在Python上投入太多的精力。
面向网络开发的Python与诸如PHP、Java或Ruby on Rails等语言不一样,不是一个常常须要的技能。可是面向数据科学的Python却愈来愈受欢迎,并且因为它更多地被用于机器学习和其余数据科学程序,Python更是招聘数据科学家的公司所最看重的技能。
面向网络开发的Python已经经历了较长的发展,可是它的学习曲线并无像PHP这样的网络编程语言那么高。
Python编程是驱动大数据、金融、统计和数字运算的核心科技,而它的语法却像英语同样易懂。近来,因为拥有多个针对机器学习、天然语言处理、数据视觉化、数据探索、数据分析和数据挖掘的插件,丰富的Python数据科学生态体系获得了较大的发展,甚至有将数据科学社区Python化的趋势。今天,面向数据科学的Python已经具有了清洗、转换和处理大数据的全部工具。对于数据分析师岗位来讲,掌握Python也是最受欢迎的技能。一名具有Python编程能力的数据科学家,能够在纽约挣到平均年薪14万美圆的工资。
数据科学家喜欢那些可以快速输出原型,帮助他们轻松地记录下本身的想法和模型的编程环境。他们喜欢经过分析巨量的数据集,得出结论,完成工做。而Python编程语言则是开发数据科学应用的多面手,由于它能帮助数据科学家,以最短最优的时间进行编码、调试、运行并获取结果,从而高效地完成工做。
一名技术娴熟的企业数据科学家的真正价值,在于利用多种数据视觉化手段,向公司的不一样利益相关者有效地传递数据模式和预测。不然,数据科学工做就是一场零和游戏。Python以其优良特性,符合高强度科学计算的几乎全部方面要求,这使得它成为在不一样的数据科学应用之间进行编程的绝佳选择,缘由很简单:开发人员仅用一种语言就能够完成开发和分析工做。面向数据科学的Python将企业业务的不一样部分链接在一块儿,提供了一个数据分享和处理的直接媒介。
Python遵循统一的设计哲学,注重可用性、可读性,对于数据科学的学习曲线也较低。
Python有很高的可扩展性,且与Matlab、Stata等语言相比,运行更加快速。
另外,Python生态系统中还在涌现出更多的数据视觉化库,以及炫酷的应用编程结构,目的是使用图形更好地展示数据分析的结果。Python社区有着诸如Sci-Kit learn、NumPy、Pandas、Statsmodel和SciPy等许多优秀的数据分析库。这些库的数量还在不断增加。
数据分析与Python编程语言十分契合。若是你决定要经过Python语言学习数据科学,那么你应该考虑的下一个问题,就是Python库中有哪些是能够完成大部分的数据分析工做?接下来,咱们给你们介绍全球的企业数据科学家都在使用的Python数据分析库。
NumPy
Numpy是使用Python开发的高级(high level)工具的基础。这个库不能用于高级数据分析,可是深刻理解Numpy中面向数组的计算,能够帮助数据科学家有效使用Pandas库。
SciPy
SciPy主要用于科学计算,拥有许多不一样的模块,可用于特殊函数、图像处理、插值法(interpolation)、线性代数、常微分方程(ODE)求解器以及其余多种用途。这个库还能够与NumPy数组一块儿使用,实现许多高效的数学运算。
Pandas
Pandas是用于数据再加工最好的库,由于它使得处理遗失的数据、自动数据对齐(data alignment)变得更加简单,它还支持处理从不一样的数据源收集而来的索引数据。
SciKit
这个流行的机器学习库拥有多种回归、分类和聚类算法,还支持gradient boosting、向量机、朴素贝叶斯模型和逻辑回归。这个库还被设计成可以与NumPy和SciPy进行交互。
Matplotlib
这是一个二维绘图库,有着交互性很强的特性,生成的图标能够放大、推移,而且可以用于发行刊物印刷出版。并且,还支持多平台的交互环境。
Matplotlib、NumPy和SciPy是科学计算的基础。还有许多其余的Python库,诸如用于网络挖掘的Pattern,用于天然语言处理的NLTK,用于深度学习的Theano,用于爬取网络的Scrappy,IPython,Statsmodels,Mlpy等。对于初学Python数据科学的人,他们须要很好地掌握上面提到的优秀数据分析库。