Python数据分析实用程序

时间 2019-11-09

原文原文链接

来源 | 愿码(ChainDesk.CN)内容编辑

愿码Slogan | 链接每一个程序员的故事

网站 | http://chaindesk.cn

愿码愿景 | 打造全学科IT系统免费课程，助力小白用户、初级工程师0成本免费系统学习、低成本进阶，帮助BAT一线资深工程师成长并利用自身优点创造睡后收入。

官方公众号 | 愿码 | 愿码服务号 | 区块链部落

免费加入愿码全思惟工程师社群 | 任一公众号回复“愿码”两个字获取入群二维码

本文阅读时长：13minnode

本文包含如下部分：ios

数据分析，数据科学，大数据
Python的数据分析简史
dautil的高级概述
IPython笔记本实用程序
下载数据
绘制实用程序
揭开Docker的神秘面纱

数据分析，数据科学，大数据

您可能已经看到维恩图将数据科学描述为数学/统计学，计算机科学和领域专业知识的交集。数据分析是永恒的，而且在数据科学和计算机科学以前存在。您可使用笔和纸进行数据分析，并在更现代的时候使用袖珍计算器进行数据分析。程序员

数据分析涉及许多方面，例如作出决策或提出新的假设和问题。围绕数据科学和大数据的炒做，状态和经济回报让我想起了数据仓库和商业智能成为流行语的时间。商业智能和数据仓库的最终目标是构建管理仪表板。这涉及不少政治和组织方面，但在技术方面，主要是关于数据库。另外一方面，数据科学不是以数据库为中心的，而是在很大程度上依赖于机器学习。机器学习因为数据量较大，技术已成为必要。数据增加是由世界人口的增加和社交媒体和移动设备等新技术的兴起引发的。实际上，数据增加多是咱们能够肯定的惟一趋势。构建仪表板和应用机器学习之间的区别与搜索引擎的演变方式相似。web

搜索引擎最初只不过是手工建立的组织良好的连接集合。最终，自动化方法获胜。因为将及时建立更多数据（而不是销毁），咱们能够预期自动数据分析会增长。算法

Python的数据分析简史

1989年：Guido van Rossum在荷兰的CWI实施了第一个Python版本，做为圣诞节爱好项目。
1995年：Jim Hugunin建立了NumPy的前身Numeric。
1999年：Pearu Peterson将f2py描述为Fortran和Python之间的桥梁。
2000：Python 2.0发布。
2001：SciPy库发布。此外，还建立了Numarray，一个竞争的数字库。费尔南多佩雷斯发布了IPython，这是一个下午的黑客攻击。NLTK做为一个研究项目发布。
2002年：John Hunter建立了matplotlib库。
2005年：NumPy由Travis Oliphant发布。最初，NumPy是Numeric扩展，其功能受到Numarray的启发。
2006：NumPy 1.0发布。SQLAlchemy的第一个版本发布了。
2007年：scikit-learn项目由David Cournapeau发起为Google Summer of Code项目。Cython是从Pyrex分叉的。Cython后来被大量用于熊猫和scikit-学习以提升性能。
2008年：Wes McKinney开始研究Pandas。Python 3.0发布了。
2011：IPython 0.12版本引入了IPython笔记本。Packt发布了NumPy 1.5初学者指南。
2012年：Packt发布了NumPy Cookbook。
2013：Packt发布NumPy初学者指南 - 第二版。
2014年：Fernando Perez宣布Project Jupyter，旨在打造一款与语言无关的笔记本电脑。Packt发布了学习NumPy数组和Python数据分析。
2015：Packt发布NumPy初学者指南 - 第三版和NumPy Cookbook - 第二版。

dautil的高级概述

dautil模块总结在下表中：docker

模	描述	LOC
dautil.collect	包含与集合相关的实用程序	331
dautil.conf	包含配置实用程序	48
dautil.data	包含用于下载和加载数据的实用程序	468
dautil.db	包含与数据库相关的实用程序	98
dautil.log_api	包含日志实用程序	204
dautil.nb	包含IPython / Jupyter笔记本小部件和实用程序	609
dautil.options	配置与数据分析相关的多个库的动态选项	71
dautil.perf	包含与性能相关的实用程序	162
dautil.plotting	包含绘图实用程序	382
dautil.report	包含报告实用程序	232
dautil.stats	包含统计函数和实用程序	366
dautil.ts	包含时间序列和日期的实用程序	217
dautil.web	包含用于Web挖掘和HTML处理的实用程序	47

IPython笔记本实用程序

IPython笔记本已成为数据分析的标准工具。该dautil.nb有几个互动IPython的小部件，以帮助乳胶渲染，matplotlib属性的设置，和绘图。Ivan定义了一个Context类，它表示小部件的配置设置。这些设置存储在当前工做目录中名为dautil.json的漂亮打印的JSON文件中。这能够扩展，甚至可使用数据库后端。如下是一个示例dautil.json的编辑摘录（所以它不占用大量空间）：数据库

{

   ...

   "calculating_moments": {

       "figure.figsize": [ 10.4, 7.7 ],

       "font.size": 11.2

   },

   "calculating_moments.latex": [ 1, 2, 3, 4, 5, 6, 7 ],

   "launching_futures": {

       "figure.figsize": [ 11.5, 8.5 ]

   },

   "launching_futures.labels": [ [ {}, {

               "legend": "loc=best",

               "title": "Distribution of Means"

           }

       ],

       [

           {

               "legend": "loc=best",

               "title": "Distribution of Standard Deviation"

           },

           {

                "legend": "loc=best",

               "title": "Distribution of Skewness"

           }

       ]

   ],

...

}

Context对象可使用字符串构建 - Ivan建议使用笔记本的名称，但任何惟一标识符均可以。该dautil.nb.LatexRenderer还使用了Context类。它是一个实用程序类，可帮助您在IPython / Jupyter笔记本中编号和渲染Latex方程式，例如，以下所示：json

import dautil as dl

 

lr = dl.nb.LatexRenderer(chapter=12, context=context)

lr.render(r'delta! = x - m')

lr.render(r'm' = m + frac{delta}{n}')

lr.render(r'M_2' = M_2 + delta^2 frac{ n-1}{n}')

lr.render(r'M_3' = M_3 + delta^3 frac{ (n - 1) (n - 2)}{n^2}/

- frac{3delta M_2}{n}')

lr.render(r'M_4' = M_4 + frac{delta^4 (n - 1) /

(n^2 - 3n + 3)}{n^3} + frac{6delta^2 M_2}/

{n^2} - frac{4delta M_3}{n}')

lr.render(r'g_1 = frac{sqrt{n} M_3}{M_2^{3/2}}')

lr.render(r'g_2 = frac{n M_4}{M_2^2}-3.')

结果以下：后端

您可能会发现有用的另外一个小部件是RcWidget，它设置matplotlib设置，如如下屏幕截图所示：api

下载数据

有时，咱们须要样本数据来测试算法或原型可视化。在dautil.data模块中，您将找到许多用于数据检索的实用程序。模块中的一些实用程序在现有的pandas函数之上添加了一个缓存层，例如从世界银行和Yahoo!下载数据的pandas函数。您还能够获取音频，人口统计，Facebook和营销数据。

数据存储在特殊数据目录下，该目录取决于操做系统。如下示例代码从SPAN Facebook数据集加载数据并计算clique数：

import networkx as nx

import dautil as dl

 

 

fb_file = dl.data.SPANFB().load()

G = nx.read_edgelist(fb_file,

                     create_using=nx.Graph(),

                     nodetype=int)

 

print('Graph Clique Number',

     nx.graph_clique_number(G.subgraph(list(range(2048)))))

绘制实用程序

Ivan在书中常常可视化数据。绘图有助于咱们了解数据的结构，并帮助您造成假设或研究问题。一般，咱们想要绘制多个变量，但咱们但愿很容易看出它是什么。matplotlib中的标准解决方案是循环颜色。可是，Ivan更喜欢循环线宽和线条样式。如下单元测试演示了他对此问题的解决方案：

def test_cycle_plotter_plot(self):

       m_ax = Mock()

       cp = plotting.CyclePlotter(m_ax)

       cp.plot([0], [0])

       m_ax.plot.assert_called_with([0], [0], '-', lw=1)

       cp.plot([0], [1])

       m_ax.plot.assert_called_with([0], [1], '--', lw=2)

       cp.plot([1], [0])

       m_ax.plot.assert_called_with([1], [0], '-.', lw=1)

该dautil.plotting模块目前也有次要情节，直方图，回归图使用的辅助工具，并处理彩色地图。下面的示例代码（标签的代码已被省略）演示了条形图实用程序功能和dautil.data的实用程序功能，它下载了股票价格数据：

import dautil as dl

import numpy as np

import matplotlib.pyplot as plt

 

 

ratios = []

STOCKS = ['AAPL', 'INTC', 'MSFT', 'KO', 'DIS', 'MCD', 'NKE', 'IBM']

 

for symbol in STOCKS:

   ohlc = dl.data.OHLC()

   P = ohlc.get(symbol)['Adj Close'].values

   N = len(P)

   mu = (np.log(P[-1]) - np.log(P[0]))/N

   var_a = 0

   var_b = 0

 

   for k in range(1, N):

       var_a = (np.log(P[k]) - np.log(P[k - 1]) - mu) ** 2

       var_a = var_a / N

 

   for k in range(1, N//2):

       var_b = (np.log(P[2 * k]) - np.log(P[2 * k - 2]) - 2 * mu) ** 2

       var_b = var_b / N

 

   ratios.append(var_b/var_a - 1)

 

_, ax = plt.subplots()

dl.plotting.bar(ax, STOCKS, ratios)

plt.show()

有关最终结果，请参阅如下屏幕截图：

代码执行随机游走测试并计算股票价格列表的相应比率。每当您运行代码时都会检索数据，所以您可能会获得不一样的结果。

如下脚本演示了世界银行数据的线性回归实用程序和缓存下载程序（省略了水印和绘图标签的代码）：

import dautil as dl

import matplotlib.pyplot as plt

import numpy as np

 

 

wb = dl.data.Worldbank()

countries = wb.get_countries()[['name', 'iso2c']]

inf_mort = wb.get_name('inf_mort')

gdp_pcap = wb.get_name('gdp_pcap')

df = wb.download(country=countries['iso2c'],

                 indicator=[inf_mort, gdp_pcap],

                start=2010, end=2010).dropna()

loglog = df.applymap(np.log10)

x = loglog[gdp_pcap]

y = loglog[inf_mort]

 

dl.options.mimic_seaborn()

fig, [ax, ax2] = plt.subplots(2, 1)

ax.set_ylim([0, 200])

ax.scatter(df[gdp_pcap], df[inf_mort])

ax2.scatter(x, y)

dl.plotting.plot_polyfit(ax2, x, y)

plt.show()

代码应显示如下图像：

该计划下载2010年世界银行数据，并将婴儿死亡率与人均GDP进行对比。还示出了对数变换数据的线性拟合。

揭开Docker的神秘面纱

Docker使用Linux内核功能来提供额外的虚拟化层。它由Solomon Hykes于2013年建立。Boot2Docker容许咱们在Windows和Mac OS X上安装Docker。Boot2Docker使用包含带有Docker 的Linux环境的VirtualBox VM 。介绍中提到的Ivan的Docker镜像基于continuumio / miniconda3 Docker镜像。

安装Boot2Docker后，须要对其进行初始化。这只须要一次，Linux用户不须要这一步：$ boot2docker init

Mac OS X和Windows用户的下一步是启动VM：

$ boot2docker start

经过启动示例容器来检查Docker环境：

$ docker run hello-world

Docker镜像组织在一个相似于GitHub的存储库中。制做人推送图像，消费者拉动图像。您可使用如下命令拉出Ivan的存储库。目前的大小为387 MB。

$ docker pull ivanidris/pydacbk