Python网络爬虫《二》

1、网络爬虫的尺寸: 2、网络爬虫的限制: (1)来源审查:判断User-agent进行限制 检查来访HTTP协议头的User-Agent域,只响应浏览器或友好爬虫的访问; (2)发布公告:Robots协议 3、Robots协议:网络爬虫排除标准 作用:网络告知网络爬虫那些页面可以抓取,那些不行; 显示:在网站根目录下robots.txt文件; 网络爬虫:自动或者人工识别robot.txt,再进行
相关文章
相关标签/搜索