网络爬虫与cookie简介

时间 2021-01-20

原文原文链接

1 web爬虫是一种机器人，她们会递归对各种信息性web站点进行遍历，获取第一个web页面，然后获取那个页面指向的所有页面，然后是那些web页面指向的所有页面。以此类推，递归地追踪这些web链接的机器人会沿着HTML超链接创建的网络爬行，所以将其称为爬虫。 2 Web站点与robot.txt 如果一个站点有robot.txt文件，那么在访问这个web站点上的任意URL之

>>阅读原文<<