python爬虫入门笔记(上)

一.爬虫是什么?爬虫:一段自动抓取互联网信息的程序。 价值:互联网数据,为我所用。如:新闻阅读器,爆笑故事APP,Python技术文章大全。 二.简单爬虫架构: 1.爬虫调度端:启动爬虫,运行爬虫,监视爬虫的运行情况 如图: 三.url管理器:管理待抓取URL集合和已抓取URL集合 作用:防止重复抓取,循环抓取  实现方式:目前有三种实现方式 1.内存(个人/小型使用) 2.关系数据库(永久存储)
相关文章
相关标签/搜索