Python爬虫工作原理

时间 2021-01-19

原文原文链接

Python爬虫通过URL管理器，判断是否有待爬URL，如果有待爬URL，通过调度器进行传递给下载器，下载URL内容，并通过调度器传送给解析器，解析URL内容，并将价值数据和新URL列表通过调度器传递给应用程序，并输出价值信息的过程。Python爬虫常用框架有：一：grab：网络爬虫框架（基于pycurl/multicur）；二：scrapy：网络爬虫框架（基于twisted），不支持Pyth

>>阅读原文<<