爬虫第1周——Robots协议

爬取网页的规模: 小规模,数据量小,爬取速度不敏感——Requests库 中规模,数据规模较大,爬取速度敏感——Scrapy库 大规模,搜索引擎,爬取速度关键—— 定制开发 网络爬虫引发的问题: 性能骚扰、 法律风险、隐私泄露
相关文章
相关标签/搜索