目标网站上内容不少时会用多个页显示,网页抓取/数据抽取/信息提取工具包MetaSeeker可以翻页并提取每一页的内容,目标网站上展示多页的方法有多种:javascript
1,页面上每一页用另一个URL地址表示。翻这样的网页是最好实现的,将这个URL提取下来,之后某个时间加载这个地址的页面就好了。而MetaSeeker还能够在一个信息提取事务中将全部的也翻完,在这个会话中这些URL称为线内线索, 这些URL没有被记录下来,翻完也就丢掉了,实际上这类URL记录下来的意义不大,目标网站显示多页时每每使用一个服务器动态页面,页码做为参数,例如 page=2,这些页面的内容是变化的,例如,一个博客网站,新博文添加之后,原来的分页就变了,原来一篇博文位于页码2,后来就可能位于页码3上了。java
2,页面上每一页关联一段Javascript代码,被点击时执行,这是普通爬虫的天敌,通常的爬虫难于提取javascript管理的内容,尤为是用AJAX框架制做的网站,网页抓取/数据抽取/信息提取工具包MetaSeeker可以模拟用户的点击操做,翻页在一个信息提取事务中完成。node