通常状况下咱们使用爬虫更多的应该是爬数据或者图片吧,今天在这里和你们分享一下关于使用爬虫技术来进行视频下载的方法,不只能够方便的下载一些体积小的视频,针对大容量的视频下载一样试用。
python
这里咱们使用的是python的requests模块做为例子,须要获取文本的时候咱们会使用response.text获取文本信息,使用response.content获取字节流,好比下载图片保存到一个文件,而对于大个的文件咱们就要采起分块读取的方式了,bash
第一步,咱们须要设置requests.get的stream参数为True。
默认状况下是stream的值为false,它会当即开始下载文件并存放到内存当中,假若文件过大就会致使内存不足的状况.
当把get函数的stream参数设置成True时,它不会当即开始下载,当你使用iter_content或iter_lines遍历内容或访问内容属性时才开始下载。须要注意一点:文件没有下载以前,它也须要保持链接。服务器
iter_content:一块一块的遍历要下载的内容iter_lines:一行一行的遍历要下载的内容复制代码
使用上面两个函数下载大文件能够防止占用过多的内存,由于每次只下载小部分数据。
示例代码:微信
r = requests.get(url_file, stream=True)f = open("file_path", "wb")for chunk in r.iter_content(chunk_size=512): if chunk: f.write(chunk)复制代码
上面的代码表示请求了url_file,这个url_file是一个大文件,因此开启了stream模式,而后经过迭代r对象的iter_content方法,同时指定chunk_size=512(即每次读取512个字节)来进行读取。可是若是仅仅是迭代是不行,若是下载中途出现问题咱们以前的努力就白费了,因此咱们须要作到一个断点续传的功能。网络
所谓断点续传,也就是要从文件已经下载的地方开始继续下载。在之前版本的 HTTP 协议是不支持断点的,HTTP/1.1 开始就支持了。通常断点下载时会用到 header请求头的Range字段,这也是如今众多号称多线程下载工具(如 FlashGet、迅雷等)实现多线程下载的核心所在。
session
range是请求资源的部份内容(不包括响应头的大小),单位是byte,即字节,从0开始.
若是服务器可以正常响应的话,服务器会返回 206 Partial Content 的状态码及说明.
若是不能处理这种Range的话,就会返回整个资源以及响应状态码为 200 OK .(这个要注意,要分段下载时,要先判断这个)多线程
Range: bytes=start-end复制代码
Range头域能够请求实体的一个或者多个子范围。例如,
表示头500个字节:bytes=0-499
表示第二个500字节:bytes=500-999
表示最后500个字节:bytes=-500
表示500字节之后的范围:bytes=500-
第一个和最后一个字节:bytes=0-0,-1
同时指定几个范围:bytes=500-600,601-999
例如并发
Range: bytes=10- :第10个字节及最后个字节的数据Range: bytes=40-100 :第40个字节到第100个字节之间的数据.复制代码
注意,这个表示[start,end],便是包含请求头的start及end字节的,因此,下一个请求,应该是上一个请求的[end+1, nextEnd]异步
下面咱们经过具体的代码去进一步了解一些细节。async
import requestsimport tqdm def download_from_url(url, dst): response = requests.get(url, stream=True) #(1) file_size = int(response.headers['content-length']) #(2) if os.path.exists(dst): first_byte = os.path.getsize(dst) #(3) else: first_byte = 0 if first_byte >= file_size: #(4) return file_size header = {"Range": f"bytes={first_byte}-{file_size}"} pbar = tqdm( total=file_size, initial=first_byte, unit='B', unit_scale=True, desc=dst) req = requests.get(url, headers=header, stream=True) #(5) with(open(dst, 'ab')) as f: for chunk in req.iter_content(chunk_size=1024): #(6) if chunk: f.write(chunk) pbar.update(1024) pbar.close() return file_size复制代码
下面咱们开始解读标有注释的代码:
tqdm是一个能够显示进度条的包,具体的用法能够参考官网文档:https://pypi.org/project/tqdm/
(1)设置stream=True参数读取大文件。
(2)经过header的content-length属性能够获取文件的总容量。
(3)获取本地已经下载的部分文件的容量,方便继续下载,固然须要判断文件是否存在,若是不存在就从头开始下载。
(4)本地已下载文件的总容量和网络文件的实际容量进行比较,若是大于或者等于则表示已经下载完成,不然继续。
(5)开始请求视频文件了
(6)循环读取每次读取一个1024个字节,固然你也能够设置512个字节
首先调用上面的方法并传入参数。
url = "http://v11-tt.ixigua.com/7da2b219bc734de0f0d04706a9629b61/5c77ed4b/video/m/220d4f4e99b7bfd49efb110892d892bea9011612eb3100006b7bebf69d81/?rc=am12NDw4dGlqajMzNzYzM0ApQHRAbzU6Ojw8MzQzMzU4NTUzNDVvQGgzdSlAZjN1KWRzcmd5a3VyZ3lybHh3Zjc2QHFubHBfZDJrbV8tLTYxL3NzLW8jbyMxLTEtLzEtLjMvLTUvNi06I28jOmEtcSM6YHZpXGJmK2BeYmYrXnFsOiMzLl4%3D"download_from_url(url, "夏目友人账第一集.mp4")复制代码
在命令行中运行代码以后看到效果以下
彻底不同的效果,我的感受仍是在pycharm里看着舒服,后面并发的时候看着也方便。
好了下面咱们就打开咱们的文件看看结果如何:
import aiohttpimport asynciofrom tqdm import tqdmasync def fetch(session, url, dst, pbar=None, headers=None): if headers: async with session.get(url, headers=headers) as req: with(open(dst, 'ab')) as f: while True: chunk = await req.content.read(1024) if not chunk: break f.write(chunk) pbar.update(1024) pbar.close() else: async with session.get(url) as req: return reqasync def async_download_from_url(url, dst): '''异步''' async with aiohttp.connector.TCPConnector(limit=300, force_close=True, enable_cleanup_closed=True) as tc: async with aiohttp.ClientSession(connector=tc) as session: req = await fetch(session, url, dst) file_size = int(req.headers['content-length']) print(f"获取视频总长度:{file_size}") if os.path.exists(dst): first_byte = os.path.getsize(dst) else: first_byte = 0 if first_byte >= file_size: return file_size header = {"Range": f"bytes={first_byte}-{file_size}"} pbar = tqdm( total=file_size, initial=first_byte, unit='B', unit_scale=True, desc=dst) await fetch(session, url, dst, pbar=pbar, headers=header)复制代码
上面的代码功能和咱们的同步代码同样的,不一样的是这里是异步的。
咱们首先要拿到MP4的连接,而后进行下面的代码便可
task = [asyncio.ensure_future(async_download_from_url(url, f"{i}.mp4")) for i in range(1, 12)] loop = asyncio.get_event_loop() loop.run_until_complete(asyncio.wait(task)) loop.close()复制代码
这里我同时下载了11次上面的那个视频,命令为1-11,方便演示效果,好了下面咱们就来看效果。
更多python内容欢迎关注微信公众号:python学习开发