爬虫随笔 五

xpath的包含 //div[contains(@class,'i')] 实现爬虫的套路 准备url 准备start_url url地址规律不明显,总数不确定 通过代码提取下一页的url xpath 寻找url地址,部分参数在当前的响应中(比如,当前页码数和总的页码数在当前的响应中) 准备url_list 页码总数明确 url地址规律明显 发送请求,获取响应 添加随机的User-Agent,反反爬
相关文章
相关标签/搜索