Elasticsearch 通过Scroll遍历索引，构造pandas dataframe 【Python多进程实现】

时间 2021-07-13

原文原文链接

首先，python 多线程不能充分利用多核CPU的计算资源（只能共用一个CPU），所以得用多进程。笔者从3.7亿数据的索引，取200多万的数据，从取数据到构造pandas dataframe总共大概用时14秒左右。每个分片用一个进程查询数据，最后拼接出完整的结果。由于返回的json数据量较大，每次100多万到200多万，如何快速根据json构造pandas 的dataframe是个问题 — 笔者

>>阅读原文<<