基于搜狗微信的公众号文章爬虫

需求分析 先来看一下目标网站。 这次爬取的内容是通过搜狗微信的接口获取微信文章的 url 然后提取目标文章的内容及公众号信息。 可以指定内容进行爬取 那这次需要解决的问题有哪些呢? 需要解决的问题 搜狗微信在没有登录的情况下可以爬取十页信息,我们想要获取更多的信息只能登录。在登录的情况下,爬取数据量太大会被封 IP 。这里给出的解决方案是使用代理池的方法。我这里是自己搭建了一个小的IP代理池,在我
相关文章
相关标签/搜索