python之爬虫基础

时间 2021-01-07

原文原文链接

有个叫微指数网站，就是微博上一些数据统计分析在网页中点击显示网页源码，出现的就是该url对应的响应 robots协议中，allow:/artical 允许爬取 artical目录下内容 disallow:/product 不允许。。。。。爬虫只会请求当前url的响应，这与浏览器（用JS）渲染后所得网页不同一个url地址带上锚点与不带锚点，请求响应是一样的，服务器从请求头中user-Agen