爬虫的浏览器伪装技术（019）

时间 2021-01-04

原文原文链接

一：浏览器伪装技术原理：我们尝试着爬取csdn的博客，可以发现返回403的状态码，因为对方服务器会对爬虫进行屏蔽。此时我们需要伪装成浏览器进行爬取。我们一般都过报头进行浏览器的伪装。二：实战浏览器的网页的报头中用 User-Agent 字段对应的值来判断是否是浏览器。所以如果要模拟成浏览器就要在请求的时候对报文进行修改，将User-Agent的值改成对应的浏览器应该有的值。（1）下面我

>>阅读原文<<