网络爬虫与cookie简介

1    web爬虫是一种机器人,她们会递归对各种信息性web站点进行遍历,获取第一个web页面,然后获取那个页面指向的所有页面,然后是那些web页面指向的所有页面。以此类推,递归地追踪这些web链接的机器人会沿着HTML超链接创建的网络爬行,所以将其称为爬虫。   2    Web站点与robot.txt       如果一个站点有robot.txt文件,那么在访问这个web站点上的任意URL之
相关文章
相关标签/搜索