《信息检索导论》第二十章总结

时间 2020-12-28

原文原文链接

一、Web采集介绍 Web采集是从Web中采集大量网页的过程，并且要避免采集重复或无用的页面，采集完的网页需要构建索引，以扩大搜索引擎的索引规模； web采集通常是由多台机器并行采集； web采集的必须功能（1）Web采集器需要识别采集器陷阱（spider traps），比如当采集器访问到某个web服务器的网页时，此网页会生成无限多个网页被采集器采集，从而使得采集器不能跳出；（2）web服务器