爬虫面试题02

时间 2020-05-13

原文原文链接

爬虫爬取数据的流程？html 明确数据采集需求；分析要采集数据的url和相关参数；编码实现功能，获取url, 对url进行筛选，找到本身想要的部分，入库，对数据去重；注意反爬虫的规则：1.验证码的识别；2.使用代理；3.httpclient头信息。如何抓取动态页面？动态网页指几种可能： 1）须要用户交互，如常见的登陆操做； 2）网页经过JS / AJAX动态生成，python 如一个