Jupyter 是数据分析领域很是有名的开发环境,使用 Jupyter 写数据分析相关的代码会大大节约开发时间。python
设想这样一个场景:别的部门的同事传给你一个数据分析的模块,用于实现对数据的高级分析。模块里面有上百个函数。函数
若是直接写 Python 文件来调用数据分析模块,那么使用方法很是简单:spa
from analyze import FathersAnalyzer
data = [...]
father = FathersAnalyzer(data)
result = father.analyze()
print(f'分析结果为:{result}')
复制代码
如今,你须要使用 Jupyter 来调用这个分析模块。你应该怎么在 Jupyter里面调用?code
你可能会以为,这还不简单吗?直接把这个模块的代码与 Jupyter Notebook 的 .ipynb
文件放在一块儿,而后在 Jupyter 里面像导入普通模块那样导入便可,以下图所示:cdn
那么如今问题来了,若是我此时修改了 analyze.py
文件,会出现什么状况呢?blog
咱们改一下看看,以下图所示。ip
从新运行这个 Cell 中的代码,代码中虽然有from analyze import FathersAnalyzer
,看起来像是从新导入了这个模块,可是运行却发现,它运行的是修改以前的代码。开发
这是由于,一个 Jupyter Notebook 中的全部代码,都是在同一个运行时中运行的代码,当你屡次导入同一个模块时,Python 的包管理机制会自动忽略后面的导入,始终只使用第一次导入的结果(因此使用这种方式也能够实现单例模式)。数据分析
那么若是我在修改了被导入的包之后,想从新导入它怎么办呢?有3种方案:string
importlib
:但这种方案弊端也很明显——除非你按顺序运行每个 Cell,不然,你的代码会变成下图这样:
在每个 Cell 里面都须要 从新加载一次分析模块,不然,颇有可能在你单独运行某一个 Cell 的时候,用的是老的代码,就会致使难以察觉的 bug。
%autoreload
:%load_ext autoreload
%autoreload 1
%aimport analyze
data = 123
importlib.reload(analyze)
father = analyze.FathersAnalyzer(data)
result = father.analyze()
print(result)
复制代码
运行效果以下图所示:
其中关键的代码有三行:
%load_ext autoreload
%autoreload 1
%aimport analyze
复制代码
这三行代码只有在 Jupyter 里面才能正常运行,在 普通的.py 文件里面这样写会报错。它们的做用是:第1行启动autoreload
机制。第2行,设置自动加载经过%aimport
导入的模块。第3行使用%aimport
导入analyze
模块。
这样写之后,任意一个 Cell 运行,全部被%aimport
导入的模块都会被从新加载一次。从而让你每次都使用最新的代码。
固然,你还能够进一步偷懒,把特殊代码缩减为2行:
%load_ext autoreload
%autoreload 2
复制代码
%autoreload
后面的参数被设置为2时,每次运行任意一个 Cell,都会自动从新加载全部import xxx
导入的模块。这样作的代价是,运行会慢一些。