python3.5爬虫-爬取微博某博主微博内容

想要爬取某个博主的微博数据。在网络上寻找了不少关于爬取微博内容的教程,发现有些教程比较老旧了,已经没法再用,有些教程在我这里出现一些问题,好比爬取移动端的微博须要获取登录cookie,而个人谷歌浏览器却没法显示,以下图所示。最终发现一博主分享的源码,亲测可用。博客连接为:https://blog.csdn.net/qq_16546829/article/details/79511997浏览器

可是在程序调试的时候发现以上博客中的源码没法获取转发的微博的内容,红色框里的内容能够获取,绿色框里的内容得不到。如图:cookie

那么如何获取绿色框中转发微博的内容呢?只须要增长下图红框中的代码,不要忘记在写入文件时将retweeted写进去。网络

调试过程当中发现爬取200条左右的数据时,pycharm报错:http error 418(不知什么缘由,但愿有大佬能够指点一下)尝试的解决方案为:.net

在爬取完一页以后,程序休眠一会,也就是说发送请求不要太频繁。在大循环里添加调试

time.sleep(10),如图:

虽然慢了一些,可是比较稳。爬取5000多条数据以后出现了新的报错:http error 502: Bad Gateway,从断掉的地方开始从新爬仍是能够爬的,有懂的朋友或者大佬能够再评论里留言指导下,谢谢\( ̄︶ ̄*\))code

相关文章
相关标签/搜索