不少开发者说自从有了 Python/Pandas,Excel 都不怎么用了,用它来处理与可视化表格很是快速。可是这样仍是有一大缺陷,操做不是可视化的表格,所以对技能要求更高一点。近日,开发者构建了名为 Grid studio 的开源项目,它是一个基于网页的表格应用,彻底结合了 Python 和 Excel 的优点。git
是的,在一个界面上同时展现可视化表格与代码,并且同时经过表格与代码修改数据,这不就是 Python 与 Excel 的结合吗?github
项目地址:https://github.com/ricklamers/gridstudio编程
咱们先看看 Grid studio 的效果究竟是什么样的。整体而言,咱们既能够经过 Python 加载和处理数据,也能经过「Excel」操做数据。数组
在 Python 上处理数据比较好理解,表格上处理数据其实很是像 Excel,以下所示为写一个求和公式。浏览器
也许咱们在表格上改了些数据,那么咱们也能导入到 NumPy 数组,并作进一步的运算。编程语言
为何要建立这个工具?ide
做者表示,他建立 Grid studio 主要是用来解决数据科学项目中工做流分散的问题,在这种项目中,他要在 R studio、Excel 等多个工具之间换来换去。函数
在为 gazillionth-time 导出 CSV 文件时,若是行数太高,应用程序窗口就会卡顿。即便是作一些简单的事情,好比读取 JSON 文件,也能把人逼疯。现有的工具没法提供高效工做所需的环境和相关工做流,这也是做者决定构建该工具的缘由。他想要建立一个易用的应用程序,能够把数据科学工做流整合进去。工具
这个工具备何亮点?性能
Grid studio 是一个基于网页的应用,看起来和 Google Sheets、Microsoft Excel 差很少。然而,它的杀手锏是整合了 Python 语言。
几乎全部使用过计算机的人都会很天然地使用表格来查看和编辑数据。将这个简单的 UI 与 Python 这种成熟的编程语言结合起来简直不要太好用。
用 Python 编写脚本很是简单:只需编写几行代码直接运行便可。
核心集成:读、写
这一 Python 集成的核心是对电子表格的读写接口,它能够在电子表格的数据和 Python 进程中的数据之间创建一个高性能的链接。
能够用如下方式在表格中写入数据:
sheet("A1:A3", [1, 2, 3])
用如下这种方式从表格中读取数据:
my_matrix = sheet("A1:A3")
你能够经过这种简单而高效的方式直接在表格中读取或写入数据,以自动化数据输入、提取、可视化等过程。
编写定制化表格函数
虽然经过一个简单的接口完成读写很是灵活,但有时编写能够直接调出的定制化函数也很重要。
除了 AVERAGE、SUM、IF 这些默认函数外,你可能还须要其余函数,那么写出来就行了!
def UPPERCASE(a):
return str(a).uppercase()
写完这行代码后,在表格中调出该函数,就像调用常规函数同样。
利用 Python 生态
经过利用 Python 生态中各类强大的软件包,咱们能当即访问到当前最优的数据科学工具,所以也能快速访问到强大的模型,例如线性回归和支持向量机等。
由于自己 Grid studio 主要就是处理表格数据,那么将它们做为特征能够快速调用 SVM 等模型,从而探索隐藏在这些数据背后的特征。
数据可视化
在数据科学中,很常见的一个任务就是可视化数据,这样才能得到关于数据的「先验知识」。经过集成交互式绘图库 Plotly.js 和 Python 标准可视化库 Matplotlib,Grid studio 目前已经内置了高级绘图功能。以下所示咱们能够在向量表格格式上使用高级绘图功能:
为了进一步解释如何使用 Grid studio 的特征以构建可视化图标,项目做者还展现了两个案例,即爬取网页与可视化数据分布,但这里主要展现第一个案例。
案例:估计正态分布
以下案例展现了 Grid studio 的强大功能,它会以更高的保真度经过 Plotly.js 可视化正态分布,咱们能够看看交互式制图究竟是如何完成的。
使用安装
前面介绍了这么多特性,那么咱们到底该怎么用呢?Grid studio 的安装和使用都很是简单,经过简单的命令行就能搞定。
git clone https://github.com/ricklamers/gridstudio
cd gridstudio && ./run.sh
如上经过下载项目、运行安装脚本两步,咱们就能在浏览器中打开本地端口,而后就能愉快地使用了。
-END-