python爬取并下载麦子学院全部视频教程
1、主要思路css
- scrapy爬取是有课程地址及名称
- 使用multiprocessing进行下载
- 就是为了爬点视频,因此是简单的代码堆砌
- 想而未实行,进行共享的方式
2、文件说明git
- itemsscray字段
- piplines.py存储数据库
- setting.py scrapy配置 须要注意的是DEFAULT_REQUEST_HEADERS的设置,须要模拟登陆
- mz.py是主要爬虫 都是基本的爬虫功能,css+xpath+正则
- start_urls = ["http://www.maiziedu.com/course/web/", ]只爬了web的,可根据须要进行,或者所有,
- 本想不存储进数据库,直接在mz.py进行下载,但考虑到位会影响scrapy原有的性能,单独进行下载
- down.py 使用multiprocessing进行下载 本来想着动态监听scrapy在数据库的中的结果,想实现进程的共享,调试屡次还出现问题因此直接用Pool.Map()这种比较粗暴的方式,
- mz.json现存取进json,但考虑到来回操做json文件,影响效率,因此改用数据库
3、结果
- 源码 :https://git.oschina.net/getsai/mzSpider.git
- 视频地址:
https://yunpan.cn/crjXKLGnkpzPk 访问密码 6c15
欢迎关注本站公众号,获取更多信息