爬虫面试题02

爬虫爬取数据的流程?html 明确数据采集需求; 分析要采集数据的url和相关参数; 编码实现功能, 获取url, 对url进行筛选,找到本身想要的部分, 入库, 对数据去重;注意反爬虫的规则:1.验证码的识别;2.使用代理;3.httpclient头信息。 如何抓取动态页面? 动态网页指几种可能: 1)须要用户交互,如常见的登陆操做; 2)网页经过JS / AJAX动态生成,python 如一个
相关文章
相关标签/搜索