Python中爬虫模块有哪些?优缺点介绍！

时间 2021-08-12

标签数据库编程网络多线程并发框架异步 scrapy async 编程语言栏目 Python 繁體版

原文原文链接

　　Python是一门高级的编程语言，它语法简单、清晰，容易入门，可用的包、库、模块有不少，即使是初学者也可以快速实现简单的网络爬虫，那么你知道Python中爬虫模块有哪些吗?咱们一块儿来看看吧。数据库

　　Python自带爬虫模块：urllib、urllib2;编程

　　第三方爬虫模块：requests、aiohttp;网络

　　爬虫框架：Scrapy、pyspider。多线程

　　Python爬虫模块优缺点介绍：并发

　　Urllib和urllib2模块都用于请求url相关的操做，但他们提供了不一样的功能。Urllib2模块中urllib2.urlopen能够接受一个Request对象或者url，且只接收一个url;urllib中有urlencode，而urllib2中没有。所以，开发人员在实际开发中常常会将urllib和urllib2一块儿使用。框架

　　Requests是一个http库，仅仅用于发送请求。对于http请求而言，Requests是一个强大的库，能够本身处理下载、解析，灵活性很高，高并发与分布式部署也很是灵活，对于功能能够更好实现。异步

　　Aiohttp是一个基于Python3的asyncio携程机制实现的一个http库，对比Requests，aiohttp自身就具有了异步功能，但只能在Python3环境中使用。scrapy

　　Scrapy是封装起来的框架，包含下载器、解析器、日志及平常处理，是基于多线程的，采用twisted的方式处理。对于固定单个网站的爬取开发，Scrapy具备优点;对于多网站爬取，并发及分布式处理方面，Scrapy不够灵活，不便调整与扩展。async

　　Pyspider是一个重量级的爬虫框架，咱们知道scrapy没有数据库集成、分布式、断点续爬的支持、UI控制界面等;若Scrapy想要实现这些功能，须要自行开发。Pyspider集成了前面这些功能，正因如此，pyspider扩展性太差，学习难度较大。编程语言