实战:爬取简书之多线程爬取(一)

在上上篇我们编写了一个简单的程序框架来爬取简书的文章信息,10分钟左右爬取了 1万 5千条数据。 现在,让我们先来做一个简单的算术题: 假设简书有活跃用户一千万人(不知道简书有多少活跃用户,我只能往小了算) 平均每人写了 15篇文章,那么一共有一亿五千万篇文章 我们10分钟爬取了 1万 5千篇,凑个整算 2万 那么爬取一亿五千万条数据需要 150000000 / 20000 = 10 * 7500
相关文章
相关标签/搜索