简书非官方大数据（一）

时间 2020-12-30

原文原文链接

昨天安稳的开始了Python数据分析的学习，向右奔跑前辈问我有没有兴趣搞下简书用户的爬取和数据分析，像我这种爱好学习（不行，让我吐一下），当然是答应了。说实话，这个实战对我来说，难度很大： 1 数据的获取：我爬取最大的数据也就是20W+，简单的scrapy还能写一点，但简书用户量巨大，第一次尝试百万级甚至千万级数据的爬取。 2 数据的清洗和处理： “一个好的数据决定一个好的分析”，昨天才开始下载

>>阅读原文<<