python使用pandas处理大数据节省内存技巧

通常来讲,用pandas处理小于100兆的数据,性能不是问题。当用pandas来处理100兆至几个G的数据时,将会比较耗时,同时会致使程序因内存不足而运行失败。html 固然,像Spark这类的工具可以胜任处理100G至几个T的大数据集,但要想充分发挥这些工具的优点,一般须要比较贵的硬件设备。并且,这些工具不像pandas那样具备丰富的进行高质量数据清洗、探索和分析的特性。对于中等规模的数据,咱们
相关文章
相关标签/搜索