对于一个有软件工程项目基础的程序员而言,咱们这群来源「可疑」的Data Scientist最被人诟病的就是期代码质量堪忧到让人崩溃的程度。本篇文章将介绍本身在以python
/Jupyter Notebook
为基础的分析/挖掘项目时是如何优化代码使其具备更大的可读性(执行效率不是本文的主要目的)。python
固然,这个层面的优化是最简单的,你们熟悉的PEP
风格和GOOGLE
风格都是不错的实践。参加下面两个文档:git
多年经(踩)验(坑)摸索出一套比较适合的变量命名方案,基本的方法是程序员
[具象词](_[操做])(_[介词短语])_[数据结构]
具象词是描述数据的具体用处的词语,例如一个班级的男生的成绩,能够用boy_score
来表述。github
操做则是归纳了对数据作过什么处理,若是是我的团队能够维护一个简单的缩略词词库。好比,咱们要描述一个班级的成绩作过去空值的处理,能够用drop_null
或者rm_na
来表示。在这种状况下,咱们能够对上面的对象完整描述成boy_score_rm_na
。markdown
介词短语其实也是操做的一部分,每每以in
/over
/top
(不严谨地归在此类)/group by
等。好比,咱们这里要描述一个班级的学生按性别取前10的成绩并作了去重处理,能够写成score_unique_groupbysex_top10
,若是长度过长,维护一个简写的映射表固然也是不错的(牺牲部分可读性)。数据结构
数据结构则是描述数据是存储在什么数据结构中的,常见的好比list
,pandas.DataFrame
、dict
等,在上面的例子里,咱们储存在pandas.DataFrame
则能够写成score_unique_groupbysex_top10_df
。app
而操做和介词短语在不少场合下能够不写。固然在更加抽象地机器学习训练中时,能够以test_df
、train_df
这种抽象描述是更适合的方案。机器学习
这点是容易忽视的一个问题,任何Jupyter
里面的cell必定要保证,具体的cell中的代码是自上而下执行的。这在工做中,可能因为反复调试,致使在编辑cell的过程当中不是线性操做。保证notebook能够线性执行的缘由,一部分是方便其余阅读人能够正常执行整个notebook;另外一部分,也是为了增长可读性。ide
<!-- 可接受的例子 --> ```cell 1 import pandas as pd ``` ```cell 2 df = pd.read_csv('train.csv') ``` ```cell 3 def sum_ab(row): return row['a'] + row['b'] ``` ```cell 4 df.apply(sum_ab, axis=1) ```
<!-- 不可接受的例子,不能正常运行 --> ```cell 1 import pandas as pd ``` ```cell 2 df = pd.read_csv('train.csv') ``` ```cell 3 df.apply(sum_ab, axis=1) ``` ```cell 4 def sum_ab(row): return row['a'] + row['b'] ```
在具体分析中,载入模块和数据是很是常见的工做,而放置在notebook开始容易帮助阅读者注意,须要的依赖以及数据。若是零散地出如今notebook任何地方,这样就容易形成困难的路径依赖检查、模块重命名方式和模块依赖检查。学习
若是有些模块并不经常使用,但在notebook引用到了,建议在载入模块前的cell中加入一个cell用来安装依赖。jupyter
能够用!
来实现临时调用系统的命令行,这个能够很好地利用在这个场景中。
此外,全部数据和自写模块使用相对连接的方式导入是不错的选择。由于,后期可能别人会经过git
的方法获取你的代码,相对连接能够容许咱们不修改连接也能使用git
项目中的模块和数据。
```cell 1 !pip install scikit-learn ``` ```cell 2 import panda as pd from sklearn import metrics import sys ## 自编模块 sys.path.append('../') from my_module import my_func ``` ```cell 3 df = pd.read_csv('./train.csv') ```
咱们在具体撰写Jupyter时,没法避免,会反复尝试,而且测试中间输出的结果。所以,不少同行的cell代码每每会呈现如下状态。
```cell 1 df_1 = df.sum(axis = 1) ``` ```cell 2 df_2 = df_1.fill_na(0) ``` ```cell 3 ggplot(df_2, aes(x = 'x', y = 'y')) + geom_point() ```
这样的作法无可厚非,且并无错误,可是,这样的缺点是,读者可能须要run三个cells才能得出最终的结果,而中间的处理过程,在阅读报告中,每每是可有可无的甚至会影响到可读性,具体查看中间步骤只有复现和纠错时才是必要的。所以,咱们要保持一个原则,就是一个Cell理应要承担一个功能需求的要求。具体优化以下:
```cell 1 df_1 = df.sum(axis = 1) df_2 = df_1.fill_na(0) ## 绘图 ggplot(df_2, aes(x = 'x', y = 'y')) + geom_point() ```
但不少朋友可能会遇到,过程过于复杂,致使一个cell看起来很是的冗余,或者处理过程异常漫长,须要一些中间表的状况,后面的建议中,我会提到如何改善这两个问题。
回到刚才的问题,不少时候,咱们会遇到一个中间过程的运行时间过长,如何改变这种情况呢,好比上个例子,咱们发现fillna
的时间很长,若是放在一个cell中,读者在本身从新运行时或者本身测试时就会很是耗时。一个具体的解决方案就是,写出临时结果,而且在本身编辑过程当中,维持小cell,只在最后呈递时作处理。好比上面的任务,我会如此工做。
```cell 1 df_1 = df.sum(axis = 1) ``` ```cell 2 df_2 = df_1.fill_na(0) df_2.to_pickle('../temp/df_2.pickle') ``` ```cell 3 ggplot(df_2, aes(x = 'x', y = 'y')) + geom_point() ```
最后呈递notebook时改为以下样子
```cell 1 ##~~~~ 中间处理 ~~~~## # df_1 = df.sum(axis = 1) # df_2 = df_1.fill_na(0) # df_2.to_pickle('../temp/df_2.pickle') ##~~~~ 中间处理 ~~~~## df_2 = pd.read_pickle('../temp/df_2.pickle') ## 绘图 ggplot(df_2, aes(x = 'x', y = 'y')) + geom_point() ```
这样作的另外个好处能够实现,数据在notebook之间的交互,咱们会在以后提到具体场景。
咱们在撰写notebook时遇到的另外一个问题,不少具体地清洗或者特征工程时的方法,过于隆长,而这些方法,可能在别的地方也会复用,此时写在一个cell里就很是很差看,例以下面一个方法。
```cell 1 def func1(x): """add 1 """ return x + 1 def func2(x): temp = list(map(func1, x)) temp.sorted() return temp[0] + temp[-1] df.a.apply(func2, axis) ```
这种状况的解决方案,是独立于notebook以外维护一个文件夹专门存放notebook中会用到的代码。例如,使用以下结构存放模块,具体使用时再载入。
--- my_module |__ __init__.py |__ a.py ___ notebook |__ test.ipynb
注意使用sys
模块添加环境来载入模块。
## import cell import pandas as pd import sys sys.path.append('../') from my_module import *
但这种方案,存在一个问题——咱们会常常改动模块的内容,特别是在测试时,这时候须要能重载模块,这个时候咱们须要反复重载模块,python
在这方面的原生支持并不友善,甚至重开内核运行全部都比手写这个重载代码快。这时候咱们须要一个ipython
的magic extension
——autoreload
,具体的方法参考这个问答。
咱们只须要在载入模块的开头写上以下行,这样咱们每当修改咱们本身编写的module时就会重载模块,实现更新。
%load_ext autoreload %autoreload 2 import pandas as pd import sys sys.path.append('../') from my_module import *
而模块分离最终的好处是,咱们最后能够容易的把这些模块最后移植到生产环境的项目中。
为了让项目更加具备可读性,对任务作一个分解是不错的方案,要实现一个notebook只执行一个问题。具体,我在工做中会如下列方案来作一个jupyter的notebook分类。其中0. introduction and contents.ipynb
是必须的,里面要介绍该项目中其余notebook的任务,并提供索引。这种方案,就能够提升一个分析/挖掘项目的可读性。
- 0. introduction and contents.ipynb - eda.1 EDA问题一.ipynb - eda.2 EDA问题二.ipynb - eda. ... - 1.1 方案一+特征工程.ipynb - 1.2 方案一训练和结果.ipynb - 2.1 方案二+特征工程.ipynb - 2.2 方案二训练和结果.ipynb - 3.1 方案三+特征工程.ipynb - 3.2 方案三训练和结果.ipynb - ... - final.1 结论.ipynb
一个分析、挖掘的项目,常常包括但不限于数据源、中间文件、临时文件、最终报告等内容,所以一个好的整理项目文件的习惯是必要的。我在工做中,具体采用下面这个例子来维护整个分析/挖掘项目。固然,初始化这些文件夹是一个很是麻烦的,所以,这里分享一个初始化脚本(支持python版本3.6+),你们能够根据本身整理习惯稍做修改。
-- 项目根目录 |__ SQL:存储须要用的SQL |__ notebook: 存放notebook的地方 |__ 0. introduction and contents.ipynb |__ eda.1 EDA问题一.ipynb |__ eda.2 EDA问题二.ipynb |__ eda. ... |__ 1.1 方案一+特征工程.ipynb |__ 1.2 方案一训练和结果.ipynb |__ 2.1 方案二+特征工程.ipynb |__ 2.2 方案二训练和结果.ipynb |__ 3.1 方案三+特征工程.ipynb |__ 3.2 方案三训练和结果.ipynb |__ ... |__ final.1 结论.ipynb |__ src: 撰写报告或者文档时须要引用的文件 |__ data: 存放原始数据 |__ csv: csv文件 |__ train.csv |__ ... |__ ... |__ temp: 存放中间数据 |__ output: 最后报告须要的综合分析结果 |__ *.pptx |__ *.pdf |__ src |__ example.png |__ ... |__ temp_module: 本身写的notebook须要引用的模块
优化一个Jupyter代码并不是不可能,只是看是否具备相关的习惯,增长可读性对本身以及团队的工做和开源社区的声望都会有利,但愿上面的建议对你们有所帮助。