Python网络爬虫之urllib2的使用细节与抓站技巧

时间 2021-01-06

原文原文链接

某些网站反感爬虫的到访，于是对爬虫一律拒绝请求,这时候我们需要伪装成浏览器，这可以通过修改http包中的header来实现一、伪装成浏览器访问+表单data的处理示例1 二、获取访问Cookie的值示例2 三、Proxy的设置及Timeout 设置 urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。如果想在程序中明确控制 Proxy 而不受环境变量的影响

>>阅读原文<<