简书非官方大数据(一)

昨天安稳的开始了Python数据分析的学习,向右奔跑前辈问我有没有兴趣搞下简书用户的爬取和数据分析,像我这种爱好学习(不行,让我吐一下),当然是答应了。说实话,这个实战对我来说,难度很大: 1 数据的获取 :我爬取最大的数据也就是20W+,简单的scrapy还能写一点,但简书用户量巨大,第一次尝试百万级甚至千万级数据的爬取。 2 数据的清洗和处理: “一个好的数据决定一个好的分析”,昨天才开始下载
相关文章
相关标签/搜索