反开源爬虫 robot.txt

搜索引擎经过一种程序“蜘蛛”(又称spider),自动访问互联网上的网页并获取网页信息。您能够在您的网站中建立一个纯文本文件robots.txt,在这个文件中声明该网站中不想被蜘蛛访问的部分,这样,该网站的部分或所有内容就能够不被搜索引擎访问和收录了,或者能够经过robots.txt指定使搜索引擎只收录指定的内容。搜索引擎爬行网站第一个访问的文件就是robots.txt。ide 百度百科  -- 
相关文章
相关标签/搜索