导读:对于那些对Python数据生态系统不太熟悉的人士,我将简要地介绍一部分重要的库。web
做者:韦斯·麦金尼(Wes McKinney)算法
译者:徐敬一数据库
来源:公众号大数据DT(ID:hzdashuju)编程
01 NumPy数组
NumPy是Numerical Python的简写,是Python数值计算的基石。它提供多种数据结构、算法以及大部分涉及Python数值计算所需的接口。NumPy还包括其余内容:安全
-
快速、高效的多维数组对象ndarray数据结构
-
基于元素的数组计算或数组间数学操做函数架构
-
用于读写硬盘中基于数组的数据集的工具框架
-
线性代数操做、傅里叶变换以及随机数生成机器学习
成熟的C语言API,容许Python拓展和本地的C或C++代码访问NumPy的数据结构和计算设施。
除了NumPy赋予Python的快速数组处理能力以外,NumPy的另外一个主要用途是在算法和库之间做为数据传递的数据容器。对于数值数据,NumPy数组可以比Python内建数据结构更为高效地存储和操做数据。
此外,用底层语言编写的库,例如用C或Fortran编写的库,能够在NumPy数组存储的数据上直接操做,而无须将数据复制到其余内存中后再操做。所以,许多Python的数值计算工具将NumPy数组做为基础数据结构,或与NumPy进行无缝互操做。
02 pandas
pandas提供了高级数据结构和函数,这些数据结构和函数的设计使得利用结构化、表格化数据的工做快速、简单、有表现力。它出现于2010年,帮助Python成为强大、高效的数据分析环境。经常使用的pandas对象是DataFrame,它是用于实现表格化、面向列、使用行列标签的数据结构;以及Series,一种一维标签数组对象。
pandas将表格和关系型数据库(例如SQL)的灵活数据操做能力与NumPy的高性能数组计算的理念相结合。它提供复杂的索引函数,使得数据的重组、切块、切片、聚合、子集选择更为简单。因为数据操做、预处理、清洗在数据分析中是重要的技能,pandas将是重要主题。
介绍一点背景知识,早在2008年,我在一家量化投资企业——AQR资本管理公司供职时,便开始了pandas的开发。那时候,我有一些独特的需求是工具清单上任何单个工具没法知足的:
-
带有标签轴,支持自动化或显式数据对齐功能的数据结构——这能够防止未对齐数据和不一样数据源的不一样索引数据所引发的常见错误
-
集成时间序列函数功能
-
可以同时处理时间序列数据和非时间序列数据的统一数据结构
-
能够保存元数据的算术操做和简化
-
灵活处理缺失数据
-
流行数据库(例如基于SQL的数据库)中的合并等关系型操做
我想将以上的工做在同一个地方完成,最好还能在一个拥有通用软件开发能力的语言中实现。Python就是一个很好的备选项,可是那时候并无这类数据结构的整合集,也没有能提供相关功能的工具。结果就是pandas最初被开发出来用于解决金融和商业分析问题,pandas尤为擅长深度时间序列和处理商业进程中产生的时间索引数据。
使用R语言进行统计计算的用户对DataFrame的名称会很是熟悉,由于这个对象是根据类似的R data.frame对象进行命名的。与Python不一样的是,数据框在R语言中是标准库中的内容。所以,pandas中的不少特征一般与R核心的实现或者R的附加库提供的功能一致。
pandas的名字的来源是panel data,这是计量经济学中针对多维结构化数据集的术语。pandas也是Python data analysis(Python数据分析)自身的简写短语。
03 matplotlib
matplotlib是最流行的用于制图及其余二维数据可视化的Python库。它由John D. Hunter建立,目前由一个大型开发者团队维护。matplotlib被设计为适合出版的制图工具。
对于Python编程者来讲也有其余可视化库,但matplotlib依然使用最为普遍,而且与生态系统的其余库良好整合。我认为将它做为默承认视化工具是一个安全的选择。
关于matplotlib更详细讲解,请戳:纯干货:手把手教你用Python作数据可视化(附代码)
04 IPython与Jupyter
IPython项目开始于2001年,由Fernando Pérez发起,旨在开发一个更具交互性的Python解释器。在过去的16年中,它成为Python数据技术栈中最重要的工具之一。
尽管它自己并不提供任何计算或数据分析工具,它的设计侧重于在交互计算和软件开发两方面将生产力最大化。它使用了一种执行-探索工做流来替代其余语言中典型的编辑-编译-运行工做流。它还提供针对操做系统命令行和文件系统的易用接口。因为数据分析编码工做包含大量的探索、试验、试错和遍历,IPython可使你更快速地完成工做。
2014年,Fernando和IPython团队发布了Jupyter项目。Jupyter项目旨在设计一个适用于更多语言的交互式计算工具。IPython web notebook 则成为Jupyter notebook,能够支持超过40种编程语言。IPython系统目前能够做为一个内核(一种编程语言模式)用于在 Jupyter 中使用Python。
IPython自身已成为 Jupyter开源项目中的一个组件,后者提供交互性、探索性的高效环境。IPtyhon最古老、最简单的“模式”就是一个增强版的Python命令行,用于提升编写、测试、调试Python代码的速度。
你也能够经过基于Web、支持多语言的代码“笔记本”——Jupyter Notebook来使用IPython系统。IPython命令行和 Jupyter notebook对于数据探索和可视化很是有用。
Jupyter notebook系统容许你使用Markdown和HTML建立包含代码和文本的富文档。其余编程语言也针对Jupyter实现了内核,容许你在Jupyter中使用多种语言而不只仅是Python。
对我我的来讲,IPython涉及我工做的大部份内容,包括运行、调试、测试代码。
05 SciPy
SciPy是科学计算领域针对不一样标准问题域的包集合。如下是SciPy中包含的一些包:
-
scipy.integrate
数值积分例程和微分方程求解器
-
scipy.linalg
线性代数例程和基于numpy.linalg的矩阵分解
-
scipy.optimize
函数优化器(最小化器)和求根算法
-
scipy.signal
信号处理工具
-
scipy.sparse
稀疏矩阵与稀疏线性系统求解器
-
scipy.special
SPECFUN的包装器。SPECFUN是Fortran语言下实现通用数据函数的包,例如gamma函数。
-
scipy.stats
标准的连续和离散几率分布(密度函数、采样器、连续分布函数)、各种统计测试、各种描述性统计。
SciPy与NumPy一块儿为不少传统科学计算应用提供了一个合理、完整、成熟的计算基础。
06 scikit-learn
scikit-learn项目诞生于2010年,目前已成为Python编程者首选的机器学习工具包。仅仅七年,scikit-learn就拥有了全世界1 500位代码贡献者。其中包含如下子模块。
-
分类:SVM、最近邻、随机森林、逻辑回归等
-
回归:Lasso、岭回归等
-
聚类:k-means、谱聚类等
-
降维:PCA、特征选择、矩阵分解等
-
模型选择:网格搜索、交叉验证、指标矩阵
-
预处理:特征提取、正态化
scikit-learn与pandas、statsmodels、IPython一块儿使Python成了高效的数据科学编程语言。
07 statsmodels
statsmodels是一个统计分析包。它源自斯坦福大学统计学教授Jonathan Taylor 利用R语言实现的各种分析模型。Skipper Seabold 和 Josef Perktold早在2010年便建立了新的statsmodels项目。自那以后该项目迅速成长,拥有大量活跃用户和贡献者者。
Nathaniel Smith 开发了Patsy项目,为R语言公式系统所驱动的statsmodels包提供公式、模型规范框架。
与scikit-learn相比,statsmodels包含经典的(高频词汇)统计学、经济学算法。它所包含的模型以下。
-
回归模型:线性回归、通用线性模型、鲁棒线性模型、线性混合效应模型等
-
方差分析(ANOVA )
-
时间序列分析:AR、ARMA、ARIMA、VAR等模型
-
非参数方法:核密度估计、核回归
-
统计模型结果可视化
statsmodels更专一于统计推理,提供不肯定性评价和p值参数。相反,scikit-learn更专一于预测。
关于做者:韦斯·麦金尼(Wes McKinney)是流行的Python开源数据分析库pandas的创始人。他是一名活跃的演讲者,也是Python数据社区和Apache软件基金会的Python/C++开源开发者。目前他在纽约从事软件架构师工做。
本文摘编自《利用Python进行数据分析》(原书第2版),经出版方受权发布。