python反爬虫【一】

1.什么是User-Agent?

答:User-Agent简称UA,使得服务器可以识别客户使用的操做系统及版本、CPU类型、浏览器版本,浏览器渲染引擎、浏览器语言、浏览器插件等。一些网站经常经过判断UA来给不一样的操做系统,不一样的浏览器发送不一样的页面,所以可能形成某些页面没法在某个浏览器中正常显示,但能够经过假装UA绕过python

网站针对UA的反爬虫:经过配置nginx,设置请求头中带有python/Java字样,返回403,禁止访问nginx

2.字体反爬?

答:字体文件本质上是从字符到图像的一个映射,好比字符0,浏览器会从字体文件中找到0这个字符对应的图像,而后展现出来浏览器

若是字符0展现并非0的图像是1的图像,这就意味着爬虫拿到的是字符0,可是人看到的倒是图像1,一切从字符到图像的映射,均可以用来反爬服务器

相关文章
相关标签/搜索