点击上方 月小水长 并 设为星标,第一时间接收干货推送
熟悉这个微博超级话题爬虫系列的都知道,我已经中止对有GUI功能集中版本的维护了,集中精力维护无GUI版本功能独立版本的开发和维护,而且保证每一个功能都是最小可用产品且互不干扰。可是功能独立版本一直有个历史遗留问题:没有将集中版本中爬取每一个用户的全部微博的功能独立出来,恰好今天有空,我也以为是时候写点东西了,因而就有了这篇文章。
web
总体的剥离过程来算比较轻松,由于功能集中版本每一个功能都有一个相对独立的类,这个用户微博爬虫就是一个 WeiboUserScrapy 类,只不过在集中版本中为了和其余功能模块进行通讯和协调,引进了 PyQT5 的信号量,以及一些公共配置变量,独立时将这些东西去掉便可。json
代码的地址放在文末阅读原文,拿到代码后,你须要作的两件事依次是:微信
-
更换代码中的 Cookie -
把 user_id 改为你想要爬取的用户 id(是纯数字)
{user_id}_{nickname}_{weibo_num}博_{followers}粉_{following}关注.csv'
格式的文件,爬取的微博都保存在这里。
user_page_config = 'user_page.json'
if not os.path.exists('user_page.json'):
page = 1
with open(user_page_config,'w', encoding='utf-8-sig') as f:
f.write(json.dumps({f'{self.user_id}':page}, indent=2))
else:
with open(user_page_config,'r', encoding='utf-8-sig') as f:
page = json.loads(f.read())[f'{self.user_id}']
random_pages = random.randint(1, 5)
for page in range(page, page_num + 1):
self.get_one_page(page) # 获取第page页的所有微博
with open(user_page_config,'r', encoding='utf-8-sig') as f:
old_data = json.loads(f.read())
old_data[f'{self.user_id}'] = page
with open(user_page_config,'w', encoding='utf-8-sig') as f:
f.write(json.dumps(old_data, indent=2))
本文分享自微信公众号 - 月小水长(inspurer)。
若有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一块儿分享。dom