实现爬虫的套路

时间 2020-06-01

原文原文链接

实现爬虫的套路 1，准备url 准备start_url url变化不规律，，总数不肯定经过代码提取下一页的url xpath 寻址url地址，部分参数在当前的响应中准备url_list 页码明确 url地址规律明显 2，发送请求获取响应添加随机的User-Agent，反反爬虫添加随机的代理ip，反反爬虫在对方判断出咱们是爬虫以后，应该添加更多的headers字段，包括cookie coo