搜索引擎核心读书心得2:暗网抓取

所谓的暗网在上篇文章已经简单介绍,是指目前搜索引擎爬虫按照常规方式很难抓取到的网页。在网络中不少网站的内容是以数据库方式进行存储的,而搜索引擎爬虫依赖页面中的连接关系发现新页面。比例携程网中的机票数据,很难有直接显示的连接指向数据库内的记录,而是以网站提供组合查询界面,在用户输入想要查询的数据以后,才可以获取相关的数据。这些数据是网络爬虫没法搜索到的。因此,为了实现这些暗网数据的索引,须要相对应地
相关文章
相关标签/搜索