Elasticsearch 通过Scroll遍历索引,构造pandas dataframe 【Python多进程实现】

首先,python 多线程不能充分利用多核CPU的计算资源(只能共用一个CPU),所以得用多进程。笔者从3.7亿数据的索引,取200多万的数据,从取数据到构造pandas dataframe总共大概用时14秒左右。每个分片用一个进程查询数据,最后拼接出完整的结果。 由于返回的json数据量较大,每次100多万到200多万,如何快速根据json构造pandas 的dataframe是个问题 — 笔者
相关文章
相关标签/搜索