python 实现简单爬虫

此文是学习爬虫实例的过程中所做的课程笔记。   一.爬虫: 一段自动抓取互联网信息的程序。 通常使用人工的方法获取感兴趣的信息,但耗时长,效率低。爬虫即从感兴趣的url出发,访问所有关联的url,并从每个页面中提取有价值的信息。 其价值在于:将互联网的数据为我所用。 二.简单的爬虫架构: 1.爬虫调度端: 用以启动爬虫,关闭爬虫,和监视其运行情况。 2.爬虫主要有三部分: (1)URL管理器:对已
相关文章
相关标签/搜索