关于优化内存的方向

时间 2019-11-13
标签关于优化内存方向繁體版
原文原文链接
数据量太大，节省内存的几种方式算法
一、使用nrows和skip_rows来读取。提早申明dtype和usecols，能够节省内存空间。
train_data=pd.read_csv(train_dir,skiprows=range(1,SKIP_ROWS),nrows=TRAIN_ROWS,dtype=dtypes,usecols=use_cols)

二、若是要兼顾内存和速度。可使用reader来分块阅读。在建立reader的时候，并无真正读取数据，等到for循环的时候才读取。

train_reader=pd.read_csv(train_dir,iterator=True,chunksize=chunk_size,dtype=dtypes,usecols=use_cols)

在for循环中，才真正读取数据。

for chunk in train_reader : 
	train_data=pd.concat([train_data,chunk],ignore_index=True)

三、要善用垃圾回收，及时删除不须要的变量

del test_data
gc.collect()

四、对数据进行类型转换，及时减小内存。

train_data[col_name]=train_data[col_name].astype('uint8')

五、转换数据格式
使用其它格式能加速数据载入而且下降内存占用。好的选择像 GRIB、NetCDF、HDF 这样的二进制格式。
有不少命令行工具能帮你转换数据格式，并且不须要把整个数据集载入内存里。换一种格式，可能帮助你以更紧凑的形式存储数据，节省内存空间；好比 2-byte 整数，或者 4-byte 浮点。

6. 流式处理数据，或渐进式的数据加载

全部数据若是不须要同时出如今内存里，能够用代码或库，随时把须要的数据作流式处理或渐进式加载，导入内存里训练模型。这可能须要算法使用优化技术迭代学习，好比使用随机梯度降低。那些须要内存里有全部数据、以进行矩阵运算的算法，好比某些对线性回归和逻辑回归的实现，就不适用了。
好比，Keras 深度学习 API 就提供了渐进式加载图像文件的功能，名为 flow_from_directory
另外一个例子式 Pandas 库，可批量载入大型 CSV 文件。
7. 使用关系数据库（Relational database）
关系数据库为存储、访问大型数据集提供了标准化的方法。
在内部，数据存在硬盘中，能渐进式地 in batch 批量加载，并使用标准检索语言 SQL 检索。
像 MySQL、Postgres 这样的开源数据库工具，支持绝大多数的（所有？）编程语言。许多机器学习工具，都能直接与关系数据库连通。你也能够用 SQLite 这样更轻量的方法。这种方法对大型表格式数据集很是有效率。