一个爬取用户全部微博的爬虫，还能断网续爬那种

点击上方月小水长并设为星标，第一时间接收干货推送

这是月小水长的第 51 篇原创干货

熟悉这个微博超级话题爬虫系列的都知道，我已经中止对有GUI功能集中版本的维护了，集中精力维护无GUI版本功能独立版本的开发和维护，而且保证每一个功能都是最小可用产品且互不干扰。可是功能独立版本一直有个历史遗留问题：没有将集中版本中爬取每一个用户的全部微博的功能独立出来，恰好今天有空，我也以为是时候写点东西了，因而就有了这篇文章。
web

总体的剥离过程来算比较轻松，由于功能集中版本每一个功能都有一个相对独立的类，这个用户微博爬虫就是一个 WeiboUserScrapy 类，只不过在集中版本中为了和其余功能模块进行通讯和协调，引进了 PyQT5 的信号量，以及一些公共配置变量，独立时将这些东西去掉便可。json

代码的地址放在文末阅读原文，拿到代码后，你须要作的两件事依次是：微信

更换代码中的 Cookie
把 user_id 改为你想要爬取的用户 id（是纯数字）

而后运行代码便可，不一下子你就能在项目的根目录下的 user 文件夹看到诸如 {user_id}_{nickname}_{weibo_num}博_{followers}粉_{following}关注.csv' 格式的文件，爬取的微博都保存在这里。

按道理，这篇文章到此就能够收尾了。可是想了想，想到老铁们可能有这样的问题：某个博主有 4w 条微博，爬了 2w 条忽然断网了或者 Cookie 过时了，难道要从新爬？

做为良心博主，固然要加一个断点续爬的功能，其实实现起来也不难，每次写 csv 的时候同时将翻页参数 page 保存并更新到一个配置文件中便可，核心代码以下：

     
 
     user_page_config = 'user_page.json'
if not os.path.exists('user_page.json'):
    page = 1
    with open(user_page_config,'w', encoding='utf-8-sig') as f:
        f.write(json.dumps({f'{self.user_id}':page}, indent=2))
else:
    with open(user_page_config,'r', encoding='utf-8-sig') as f:
        page = json.loads(f.read())[f'{self.user_id}']

random_pages = random.randint(1, 5)
for page in range(page, page_num + 1):
    self.get_one_page(page)  # 获取第page页的所有微博

    with open(user_page_config,'r', encoding='utf-8-sig') as f:
        old_data = json.loads(f.read())
        old_data[f'{self.user_id}'] = page

    with open(user_page_config,'w', encoding='utf-8-sig') as f:
        f.write(json.dumps(old_data, indent=2))

这样，就能右键运行代码，开开心心作其余事去，不用每时每刻盯着代码。

最后就是一点碎碎念了，断更的这一个月中， 我正式成为了一名社畜，一个北漂，全职在北京西二旗某互联网厂工做 ，所以我的可用的时间相比在校少了许多，可是这个微博爬虫呢，我会继续维护的，公众号也会加油更的，请你们多多支持。哦，别忘了， 阅读原文 取代码，跑数据。

本文分享自微信公众号 - 月小水长（inspurer）。
若有侵权，请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一块儿分享。dom

一个爬取用户全部微博的爬虫，还能断网续爬那种

点击上方 月小水长 并 设为星标，第一时间接收干货推送

点击上方月小水长并设为星标，第一时间接收干货推送