因为本人工做缘由,涉及到网络直播领域,其中视频的回放下载,涉及到了一些视频下载方面的技术。针对于一个完整视频的下载,目前市面上的主流作法是,先将整个视频流切片,存储到文件服务器中,在用户须要观看回放视频时。经过一个视频回源服务器,去文件服务器中逐个请求切片,返回给用户播放。
在nginx.conf文件中添加以下代码:
- http{
- ......
- proxy_cache_path/data/nginx/tmp-test levels=1:2 keys_zone=tmp-test:100m inactive=7d max_size=1000g;
- }
代码说明:
proxy_cache_path 缓存文件路径web
levels 设置缓存文件目录层次;levels=1:2 表示两级目录后端
keys_zone 设置缓存名字和共享内存大小缓存
inactive 在指定时间内没人访问则被删除服务器
max_size 最大缓存空间,若是缓存空间满,默认覆盖掉缓存时间最长的资源。
当配置好以后,重启nginx,若是不报错,则配置的proxy_cache会生效网络
查看 proxy_cache_path /data/nginx/目录,
会发现生成了tmp-test文件夹。
如何使用proxy_cache
在你对应的nginx vhost server配置文件中添加以下代码:
- location /tmp-test/ {
- proxy_cache tmp-test;
- proxy_cache_valid 200 206 304 301 302 10d;
- proxy_cache_key $uri;
- proxy_set_header Host $host:$server_port;
- proxy_set_header X-Real-IP $remote_addr;
- proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
- proxy_passhttp://127.0.0.1:8081/media_store.php/tmp-test/;
- }
配置项介绍:
Proxy_cache tmp-test 使用名为tmp-test的对应缓存配置
proxy_cache_valid 200 206 304 301 302 10d; 对httpcode为200…的缓存10天架构
proxy_cache_key $uri 定义缓存惟一key,经过惟一key来进行hash存取ssh
proxy_set_header 自定义http header头,用于发送给后端真实服务器。函数
proxy_pass 指代理后转发的路径,注意是否须要最后的/
到这里,最基本的proxy_cache功能就配置成功了。当uri成功匹配到该location,则proxy_cache就会生效。
添加proxy_cache以后,请求过程的变化:
一、第一次访问:
第一次访问,proxy_cache并无找到对应的缓存文件(未命中缓存MISS),因此当第一次请求完成的同时,proxy_cache会保持缓存:
二、保存缓存,如图所示:
三、同一个url第二次访问,当同一个文件再次到达源站,proxy_cache就会找到其对应的缓存文件(命中缓存HIT)直接返回给请求端,无需再执行php程序,如图所示:
提出疑问:
到此,就完成了最基本的proxy_cache配置和访问过程介绍,可是最基本的配置,每每没法知足咱们的业务需求,咱们每每会提出如下几点疑问和需求:
- 须要主动清理缓存文件
- 写入路径为一块磁盘,若是磁盘打满该怎么解决?
- 如何让源站支持断点续传,以及断点续传的缓存策略
- 若是请求端 range 请求(分片下载)一个大资源,一样的uri,如何区别请求?
- 还须要告诉请求端,资源的过时时间
- 日志统计,如何配置命中与不命中字段,如何作统计?
面对以上疑问,咱们一个一个解决。
问题一:主动清理缓存
采用:nginx proxy_cache_purge 模块 ,该模块与proxy_cache成对出现,功能正好相反。
设计方法:在nginx中,另启一个server,当须要清理响应资源的缓存时,在本机访问这个server。
例如:
访问 127.0.0.1:8083/tmp-test/TL39ef7ea6d8e8d48e87a30c43b8f75e30.txt 便可清理该资源的缓存文件。
配置方法:
- location /tmp-test/ {
- allow 127.0.0.1; //只容许本机访问
- deny all; //禁止其余全部ip
- proxy_cache_purge tmp-test $uri; //清理缓存
- }
proxy_cache_purge:缓存清理模块
tmp-test:指定的key_zone
$uri:指定的生成key的参数
proxy_cache_purge缓存清理过程,如图所示:
问题二:缓存文件强磁盘打满该怎么办?
因为写入路径为一个单一目录,只能写入一块磁盘。一块磁盘很快就会被打满,解决该问题有以下两种方法:
一、将多块磁盘作磁盘阵列? 缺点是:减少了实际的存储空间。
二、巧妙得运用proxy_cache_path的目录结构,因为levels=1:2,这致使缓存文件的目录结构为两层,每层目录名,都是由hash函数生成。如图所示:
总共含有16*16*16=4096个文件目录。对该一级目录进行软链接,分别将0-f软链接到你所须要的指定磁盘目录上,如图所示:
经过软链的方法,实现:将不一样盘下的目录做为真正存放数据的路径,解决了多盘利用,单盘被打满的问题。
问题三:支持range(断点续传)
添加上缓存代理以后,客户端发起的range请求将会失效,以下图所示:
致使range参数没法传递到下一级的缘由以下:
当缓存代理转发http请求到后端服务器时,http header会改变,header中的部分参数,会被取消掉。其中range参数被取消,致使,后端nginx服务器没有收到range参数,最终致使这个分片下载不成功。因此须要对代理转发的header进行配置。
例如:
- location /tmp-test/ {
- proxy_cache tmp-test;
- proxy_cache_valid 200 206 304 301 302 10d;
- proxy_cache_key $uri;
- <span style="color:#ff0000;">proxy_set_header Range $http_range;</span>
- proxy_pass http://127.0.0.1:8081/media_store.php/tmp-test/;
- }
红色部分的含义:将http请求中的range值($http_range)放到代理转发的http请求头中做为参数range的值。
问题四,当支持range加载后,proxy_cache_key,则须要从新配置:
若是请求端 Range请求(分片下载)一个大资源,一样的uri,proxy cache如何识别资源对应的key。
因为nginx配置为:proxy_cache_key $uri,用uri做为key
因此当请求为普通请求和range请求时,都是一样的uri做为key。proxy_cache将有可能致使错误返回。以下图所示:
解决方法以下:
修改proxy_cache_key ,配置proxy_cache_key $http_range$uri;
这样就能解决:key惟一性。能够避免不论是正常请求仍是不一样的range请求,第一次获取的内容和以后获取的缓存内容都不会出现异常。
问题五:如何配置-返回过时时间
须要经过返回过时时间来指定请求端,哪些资源须要缓存,哪些资源不缓存,
参数 |
正常请求 |
range请求 |
返回过时时间 |
返回 |
不返回 |
为了防止请求端将分片资源当作完整资源缓存起来,咱们须要对正常请求,返回过时时间;对range请求, 不返回过时时间。
解决该问题,经过对nginx配置便可解决:
- location /media_store.php {
- fastcgi_pass 127.0.0.1:9000;
- fastcgi_index media_store.php;
- fastcgi_param SCRIPT_FILENAME $document_root/$fastcgi_script_name;
- include fastcgi_params;
- if ( $http_range = ''){
- expires 2592000s;
- }
- }
在proxy_pass代理以后的location中加入对$http_range的判断,expires 表示过时时间。 2592000s指缓存过时时间。
问题七:缓存命中状况如何在http头中体现,以及在nginx日志中查看
解决方法:
利用nginx $upstream_cache_status变量:该变量表明缓存命中的状态,
若是命中,为HIT;若是未命中,为MISS
在返回nginx server配置中添加:
add_header Nginx-Cache "$upstream_cache_status";
在nginxlog中添加:
log_format combinedio …$upstream_cache_status;
http返回head截图:
nginx log日志截图:
总结:
整个一套完备的缓存策略就介绍到此,这套方案中不只实现了基本的缓存配置,还解决了实际场景应用中会遇到的,磁盘扩展,缓存清理,断点续传,缓存过时时间,缓存命中提示等问题,只要将这套方案灵活运用,不论是再复杂的场景,基本都能知足需求。以上都是我在工做中爬过的坑,不断完善总结出的结果,但愿对读者能有帮助。