《信息检索导论》第二十章总结

一、Web采集介绍 Web采集是从Web中采集大量网页的过程,并且要避免采集重复或无用的页面,采集完的网页需要构建索引,以扩大搜索引擎的索引规模; web采集通常是由多台机器并行采集; web采集的必须功能 (1)Web采集器需要识别采集器陷阱(spider traps),比如当采集器访问到某个web服务器的网页时,此网页会生成无限多个网页被采集器采集,从而使得采集器不能跳出; (2)web服务器
相关文章
相关标签/搜索