爬虫随笔五

时间 2021-01-20

原文原文链接

xpath的包含 //div[contains(@class,'i')] 实现爬虫的套路准备url 准备start_url url地址规律不明显，总数不确定通过代码提取下一页的url xpath 寻找url地址，部分参数在当前的响应中（比如，当前页码数和总的页码数在当前的响应中）准备url_list 页码总数明确 url地址规律明显发送请求，获取响应添加随机的User-Agent,反反爬