- 来源 | 愿码(ChainDesk.CN)内容编辑
- 愿码Slogan | 链接每一个程序员的故事
- 网站 | http://chaindesk.cn
- 愿码愿景 | 打造全学科IT系统免费课程,助力小白用户、初级工程师0成本免费系统学习、低成本进阶,帮助BAT一线资深工程师成长并利用自身优点创造睡后收入。
- 官方公众号 | 愿码 | 愿码服务号 | 区块链部落
- 免费加入愿码全思惟工程师社群 | 任一公众号回复“愿码”两个字获取入群二维码
本文阅读时长:13minnode
本文包含如下部分:ios
您可能已经看到维恩图将数据科学描述为数学/统计学,计算机科学和领域专业知识的交集。数据分析是永恒的,而且在数据科学和计算机科学以前存在。您可使用笔和纸进行数据分析,并在更现代的时候使用袖珍计算器进行数据分析。程序员
数据分析涉及许多方面,例如作出决策或提出新的假设和问题。围绕数据科学和大数据的炒做,状态和经济回报让我想起了数据仓库和商业智能成为流行语的时间。商业智能和数据仓库的最终目标是构建管理仪表板。这涉及不少政治和组织方面,但在技术方面,主要是关于数据库。另外一方面,数据科学不是以数据库为中心的,而是在很大程度上依赖于机器学习。机器学习因为数据量较大,技术已成为必要。数据增加是由世界人口的增加和社交媒体和移动设备等新技术的兴起引发的。实际上,数据增加多是咱们能够肯定的惟一趋势。构建仪表板和应用机器学习之间的区别与搜索引擎的演变方式相似。web
搜索引擎最初只不过是手工建立的组织良好的连接集合。最终,自动化方法获胜。因为将及时建立更多数据(而不是销毁),咱们能够预期自动数据分析会增长。算法
dautil模块总结在下表中:docker
模 | 描述 | LOC |
---|---|---|
dautil.collect | 包含与集合相关的实用程序 | 331 |
dautil.conf | 包含配置实用程序 | 48 |
dautil.data | 包含用于下载和加载数据的实用程序 | 468 |
dautil.db | 包含与数据库相关的实用程序 | 98 |
dautil.log_api | 包含日志实用程序 | 204 |
dautil.nb | 包含IPython / Jupyter笔记本小部件和实用程序 | 609 |
dautil.options | 配置与数据分析相关的多个库的动态选项 | 71 |
dautil.perf | 包含与性能相关的实用程序 | 162 |
dautil.plotting | 包含绘图实用程序 | 382 |
dautil.report | 包含报告实用程序 | 232 |
dautil.stats | 包含统计函数和实用程序 | 366 |
dautil.ts | 包含时间序列和日期的实用程序 | 217 |
dautil.web | 包含用于Web挖掘和HTML处理的实用程序 | 47 |
IPython笔记本已成为数据分析的标准工具。该dautil.nb有几个互动IPython的小部件,以帮助乳胶渲染,matplotlib属性的设置,和绘图。Ivan定义了一个Context类,它表示小部件的配置设置。这些设置存储在当前工做目录中名为dautil.json的漂亮打印的JSON文件中。这能够扩展,甚至可使用数据库后端。如下是一个示例dautil.json的编辑摘录(所以它不占用大量空间):数据库
{ ... "calculating_moments": { "figure.figsize": [ 10.4, 7.7 ], "font.size": 11.2 }, "calculating_moments.latex": [ 1, 2, 3, 4, 5, 6, 7 ], "launching_futures": { "figure.figsize": [ 11.5, 8.5 ] }, "launching_futures.labels": [ [ {}, { "legend": "loc=best", "title": "Distribution of Means" } ], [ { "legend": "loc=best", "title": "Distribution of Standard Deviation" }, { "legend": "loc=best", "title": "Distribution of Skewness" } ] ], ... }
Context对象可使用字符串构建 - Ivan建议使用笔记本的名称,但任何惟一标识符均可以。该dautil.nb.LatexRenderer还使用了Context类。它是一个实用程序类,可帮助您在IPython / Jupyter笔记本中编号和渲染Latex方程式,例如,以下所示:json
import dautil as dl lr = dl.nb.LatexRenderer(chapter=12, context=context) lr.render(r'delta! = x - m') lr.render(r'm' = m + frac{delta}{n}') lr.render(r'M_2' = M_2 + delta^2 frac{ n-1}{n}') lr.render(r'M_3' = M_3 + delta^3 frac{ (n - 1) (n - 2)}{n^2}/ - frac{3delta M_2}{n}') lr.render(r'M_4' = M_4 + frac{delta^4 (n - 1) / (n^2 - 3n + 3)}{n^3} + frac{6delta^2 M_2}/ {n^2} - frac{4delta M_3}{n}') lr.render(r'g_1 = frac{sqrt{n} M_3}{M_2^{3/2}}') lr.render(r'g_2 = frac{n M_4}{M_2^2}-3.')
结果以下:后端
您可能会发现有用的另外一个小部件是RcWidget,它设置matplotlib设置,如如下屏幕截图所示:api
有时,咱们须要样本数据来测试算法或原型可视化。在dautil.data模块中,您将找到许多用于数据检索的实用程序。模块中的一些实用程序在现有的pandas函数之上添加了一个缓存层,例如从世界银行和Yahoo!下载数据的pandas函数。您还能够获取音频,人口统计,Facebook和营销数据。
数据存储在特殊数据目录下,该目录取决于操做系统。如下示例代码从SPAN Facebook数据集加载数据并计算clique数:
import networkx as nx import dautil as dl fb_file = dl.data.SPANFB().load() G = nx.read_edgelist(fb_file, create_using=nx.Graph(), nodetype=int) print('Graph Clique Number', nx.graph_clique_number(G.subgraph(list(range(2048)))))
Ivan在书中常常可视化数据。绘图有助于咱们了解数据的结构,并帮助您造成假设或研究问题。一般,咱们想要绘制多个变量,但咱们但愿很容易看出它是什么。matplotlib中的标准解决方案是循环颜色。可是,Ivan更喜欢循环线宽和线条样式。如下单元测试演示了他对此问题的解决方案:
def test_cycle_plotter_plot(self): m_ax = Mock() cp = plotting.CyclePlotter(m_ax) cp.plot([0], [0]) m_ax.plot.assert_called_with([0], [0], '-', lw=1) cp.plot([0], [1]) m_ax.plot.assert_called_with([0], [1], '--', lw=2) cp.plot([1], [0]) m_ax.plot.assert_called_with([1], [0], '-.', lw=1)
该dautil.plotting模块目前也有次要情节,直方图,回归图使用的辅助工具,并处理彩色地图。下面的示例代码(标签的代码已被省略)演示了条形图实用程序功能和dautil.data的实用程序功能,它下载了股票价格数据:
import dautil as dl import numpy as np import matplotlib.pyplot as plt ratios = [] STOCKS = ['AAPL', 'INTC', 'MSFT', 'KO', 'DIS', 'MCD', 'NKE', 'IBM'] for symbol in STOCKS: ohlc = dl.data.OHLC() P = ohlc.get(symbol)['Adj Close'].values N = len(P) mu = (np.log(P[-1]) - np.log(P[0]))/N var_a = 0 var_b = 0 for k in range(1, N): var_a = (np.log(P[k]) - np.log(P[k - 1]) - mu) ** 2 var_a = var_a / N for k in range(1, N//2): var_b = (np.log(P[2 * k]) - np.log(P[2 * k - 2]) - 2 * mu) ** 2 var_b = var_b / N ratios.append(var_b/var_a - 1) _, ax = plt.subplots() dl.plotting.bar(ax, STOCKS, ratios) plt.show()
有关最终结果,请参阅如下屏幕截图:
代码执行随机游走测试并计算股票价格列表的相应比率。每当您运行代码时都会检索数据,所以您可能会获得不一样的结果。
如下脚本演示了世界银行数据的线性回归实用程序和缓存下载程序(省略了水印和绘图标签的代码):
import dautil as dl import matplotlib.pyplot as plt import numpy as np wb = dl.data.Worldbank() countries = wb.get_countries()[['name', 'iso2c']] inf_mort = wb.get_name('inf_mort') gdp_pcap = wb.get_name('gdp_pcap') df = wb.download(country=countries['iso2c'], indicator=[inf_mort, gdp_pcap], start=2010, end=2010).dropna() loglog = df.applymap(np.log10) x = loglog[gdp_pcap] y = loglog[inf_mort] dl.options.mimic_seaborn() fig, [ax, ax2] = plt.subplots(2, 1) ax.set_ylim([0, 200]) ax.scatter(df[gdp_pcap], df[inf_mort]) ax2.scatter(x, y) dl.plotting.plot_polyfit(ax2, x, y) plt.show()
代码应显示如下图像:
该计划下载2010年世界银行数据,并将婴儿死亡率与人均GDP进行对比。还示出了对数变换数据的线性拟合。
Docker使用Linux内核功能来提供额外的虚拟化层。它由Solomon Hykes于2013年建立。Boot2Docker容许咱们在Windows和Mac OS X上安装Docker。Boot2Docker使用包含带有Docker 的Linux环境的VirtualBox VM 。介绍中提到的Ivan的Docker镜像基于continuumio / miniconda3 Docker镜像。
安装Boot2Docker后,须要对其进行初始化。这只须要一次,Linux用户不须要这一步:$ boot2docker init
Mac OS X和Windows用户的下一步是启动VM:
$ boot2docker start
经过启动示例容器来检查Docker环境:
$ docker run hello-world
Docker镜像组织在一个相似于GitHub的存储库中。制做人推送图像,消费者拉动图像。您可使用如下命令拉出Ivan的存储库。目前的大小为387 MB。
$ docker pull ivanidris/pydacbk