python爬取并下载麦子学院全部视频教程

时间 2019-11-12

标签 python 下载麦子学院全部视频教程栏目 Python 繁體版

原文原文链接

1、主要思路css

scrapy爬取是有课程地址及名称
使用multiprocessing进行下载
就是为了爬点视频，因此是简单的代码堆砌
想而未实行，进行共享的方式

2、文件说明git

itemsscray字段
piplines.py存储数据库
setting.py scrapy配置须要注意的是DEFAULT_REQUEST_HEADERS的设置，须要模拟登陆
mz.py是主要爬虫都是基本的爬虫功能，css+xpath+正则
start_urls = ["http://www.maiziedu.com/course/web/", ]只爬了web的，可根据须要进行，或者所有，
本想不存储进数据库，直接在mz.py进行下载，但考虑到位会影响scrapy原有的性能，单独进行下载

down.py 使用multiprocessing进行下载本来想着动态监听scrapy在数据库的中的结果，想实现进程的共享，调试屡次还出现问题因此直接用Pool.Map（）这种比较粗暴的方式，
mz.json现存取进json，但考虑到来回操做json文件，影响效率，因此改用数据库

3、结果

源码 :https://git.oschina.net/getsai/mzSpider.git
视频地址：https://yunpan.cn/crjXKLGnkpzPk 访问密码 6c15

来自为知笔记(Wiz)

相关文章

相关标签/搜索

附视频下载

带视频教程

IOS视频教学

Python爬虫教学

Docker命令大全

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公众号

欢迎关注本站公众号,获取更多信息

相关文章

>>更多相关文章<<