Python是一门高级的编程语言,它语法简单、清晰,容易入门,可用的包、库、模块有不少,即使是初学者也可以快速实现简单的网络爬虫,那么你知道Python中爬虫模块有哪些吗?咱们一块儿来看看吧。数据库
Python自带爬虫模块:urllib、urllib2;编程
第三方爬虫模块:requests、aiohttp;网络
爬虫框架:Scrapy、pyspider。多线程
Python爬虫模块优缺点介绍:并发
Urllib和urllib2模块都用于请求url相关的操做,但他们提供了不一样的功能。Urllib2模块中urllib2.urlopen能够接受一个Request对象或者url,且只接收一个url;urllib中有urlencode,而urllib2中没有。所以,开发人员在实际开发中常常会将urllib和urllib2一块儿使用。框架
Requests是一个http库,仅仅用于发送请求。对于http请求而言,Requests是一个强大的库,能够本身处理下载、解析,灵活性很高,高并发与分布式部署也很是灵活,对于功能能够更好实现。异步
Aiohttp是一个基于Python3的asyncio携程机制实现的一个http库,对比Requests,aiohttp自身就具有了异步功能,但只能在Python3环境中使用。scrapy
Scrapy是封装起来的框架,包含下载器、解析器、日志及平常处理,是基于多线程的,采用twisted的方式处理。对于固定单个网站的爬取开发,Scrapy具备优点;对于多网站爬取,并发及分布式处理方面,Scrapy不够灵活,不便调整与扩展。async
Pyspider是一个重量级的爬虫框架,咱们知道scrapy没有数据库集成、分布式、断点续爬的支持、UI控制界面等;若Scrapy想要实现这些功能,须要自行开发。Pyspider集成了前面这些功能,正因如此,pyspider扩展性太差,学习难度较大。编程语言