网页抓取/数据抽取/信息提取工具包MetaSeeker的翻页抓取原理

时间 2019-11-17

标签网页抓取数据抽取信息提取工具包 metaseeker 翻页原理栏目 HTML 繁體版

原文原文链接

目标网站上内容不少时会用多个页显示，网页抓取/数据抽取/信息提取工具包MetaSeeker可以翻页并提取每一页的内容，目标网站上展示多页的方法有多种：javascript

1，页面上每一页用另一个URL地址表示。翻这样的网页是最好实现的，将这个URL提取下来，之后某个时间加载这个地址的页面就好了。而MetaSeeker还能够在一个信息提取事务中将全部的也翻完，在这个会话中这些URL称为线内线索，这些URL没有被记录下来，翻完也就丢掉了，实际上这类URL记录下来的意义不大，目标网站显示多页时每每使用一个服务器动态页面，页码做为参数，例如 page=2，这些页面的内容是变化的，例如，一个博客网站，新博文添加之后，原来的分页就变了，原来一篇博文位于页码2，后来就可能位于页码3上了。java

2，页面上每一页关联一段Javascript代码，被点击时执行，这是普通爬虫的天敌，通常的爬虫难于提取javascript管理的内容，尤为是用AJAX框架制做的网站，网页抓取/数据抽取/信息提取工具包MetaSeeker可以模拟用户的点击操做，翻页在一个信息提取事务中完成。node