网络爬虫采集数据几个问题

时间 2020-07-17

原文原文链接

最近在作网络爬虫抓取数据，遇到几个重要问题，记录下来，以避免忘记。css 目前用的是第三方开源爬虫框架webmagic，因此暂时记录下来的不是爬虫实现和结构上的问题，而主要是在此框架上的逻辑开发问题。html 1.要采集的数据在不一样的页面上前端好比，采集网站http://down.7po.com/上的应用，在应用列表页面有应用的id等信息，而此应用的详细页面没有列表页面的这些字

>>阅读原文<<