爬虫抓取时的几个小细节-缓存、编码、解析

一:网页更新html      咱们知道,通常网页中的信息是不断翻新的,这也要求咱们按期的去抓这些新信息,可是这个“按期”该怎么理解,也就是多长时间须要web 抓一次该页面,其实这个按期也就是页面缓存时间,在页面的缓存时间内咱们再次抓取该网页是没有必要的,反而给人家服务器形成压力。浏览器 就好比说我要抓取博客园首页,首先清空页面缓存,缓存 从Last-Modified到Expires,咱们能够看到
相关文章
相关标签/搜索