背景

目标

最大化提高数据处理速度，将耗时降至10min左右，此时C表的写入速度约5000/s。数据库

由于T表间没有业务关联，因此每张表均可以单独处理。数据结构

将T表按数据量排序，每一个进程处理N张表，尽可能平衡各进程的负载。负载均衡

存在的问题：T表的数据量分布极为不均衡，有几张表数据量在70万左右，最终耗时约为（70万/500）s，瓶颈问题严重。测试

在 方案一 的的基础上，以 表+数据 的维度作并行处理，能够解决大表瓶颈问题。大数据

存在的问题：代码实现较复杂，须要考虑排序

借助 Redis 的 pub/sub 机制，实现生产和消费的分离。进程

是方案三的变体，借助 Redis 的 List，实现生产和消费的分离。同步

本方案相比 方案三 的优点在于代码逻辑比较简洁，生产端和消费端均不须要作负载均衡。消费端能者多劳，多个消费进程同步完成做业。class

最终采用方案四。基础

依次读取T表数据，将表名+ID 写入List。须要注意List支持批量写入，每次写入100条数据，写入速度约50000/s。

单个进程的消费速度约300/s，起10个消费进程，处理速度能够达到约3000/s。若是数据库的写入速度容许，可适当增长消费进程数量。