反开源爬虫 robot.txt

时间 2020-07-06

原文原文链接

搜索引擎经过一种程序“蜘蛛”（又称spider），自动访问互联网上的网页并获取网页信息。您能够在您的网站中建立一个纯文本文件robots.txt，在这个文件中声明该网站中不想被蜘蛛访问的部分，这样，该网站的部分或所有内容就能够不被搜索引擎访问和收录了，或者能够经过robots.txt指定使搜索引擎只收录指定的内容。搜索引擎爬行网站第一个访问的文件就是robots.txt。ide 百度百科 --

>>阅读原文<<