前端大文件上传

时间 2019-11-05

标签前端文件上传繁體版

原文原文链接

本文同步在我的博客shymean.com上，欢迎关注php

最近碰见一个须要上传百兆大文件的需求，调研了七牛和腾讯云的切片分段上传功能，所以在此整理前端大文件上传相关功能的实现。html

在某些业务中，大文件上传是一个比较重要的交互场景，如上传入库比较大的Excel表格数据、上传影音文件等。若是文件体积比较大，或者网络条件很差时，上传的时间会比较长（要传输更多的报文，丢包重传的几率也更大），用户不能刷新页面，只能耐心等待请求完成。前端

下面从文件上传方式入手，整理大文件上传的思路，并给出了相关实例代码，因为PHP内置了比较方便的文件拆分和拼接方法，所以服务端代码使用PHP进行示例编写。ios

本文相关示例代码位于github上，主要参考nginx

文件上传的几种方式

首先咱们来看看文件上传的几种方式。git

普通表单上传

使用PHP来展现常规的表单上传是一个不错的选择。首先构建文件上传的表单，并指定表单的提交内容类型为enctype="multipart/form-data"，代表表单须要上传二进制数据。github

<form action="/index.php" method="POST" enctype="multipart/form-data">
  <input type="file" name="myfile">
  <input type="submit">
</form>
复制代码

而后编写index.php上传文件接收代码，使用move_uploaded_file方法便可(php大法好...)数据库

$imgName = 'IMG'.time().'.'.str_replace('image/','',$_FILES["myfile"]['type']);
$fileName =  'upload/'.$imgName;
// 移动上传文件至指定upload文件夹下，并根据返回值判断操做是否成功
if (move_uploaded_file($_FILES['myfile']['tmp_name'], $fileName)){
    echo $fileName;
}else {
    echo "nonn";
}
复制代码

form表单上传大文件时，很容易碰见服务器超时的问题。经过xhr，前端也能够进行异步上传文件的操做，通常由两个思路。json

文件编码上传

第一个思路是将文件进行编码，而后在服务端进行解码，以前写过一篇在前端实现图片压缩上传的博客，其主要实现原理就是将图片转换成base64进行传递canvas

var imgURL = URL.createObjectURL(file);
ctx.drawImage(imgURL, 0, 0);
// 获取图片的编码，而后将图片当作是一个很长的字符串进行传递
var data = canvas.toDataURL("image/jpeg", 0.5); 
复制代码

在服务端须要作的事情也比较简单，首先解码base64，而后保存图片便可

$imgData = $_REQUEST['imgData'];
$base64 = explode(',', $imgData)[1];
$img = base64_decode($base64);
$url = './test.jpg';
if (file_put_contents($url, $img)) {
    exit(json_encode(array(
        url => $url
    )));
}
复制代码

base64编码的缺点在于其体积比原图片更大（由于Base64将三个字节转化成四个字节，所以编码后的文本，会比原文本大出三分之一左右），对于体积很大的文件来讲，上传和解析的时间会明显增长。

更多关于base64的知识，能够参考Base64笔记。

除了进行base64编码，还能够在前端直接读取文件内容后以二进制格式上传

// 读取二进制文件
function readBinary(text){
   var data = new ArrayBuffer(text.length);
   var ui8a = new Uint8Array(data, 0);
   for (var i = 0; i < text.length; i++){ 
     ui8a[i] = (text.charCodeAt(i) & 0xff);
   }
   console.log(ui8a)
}

var reader = new FileReader();
reader.onload = function(){
	  readBinary(this.result) // 读取result或直接上传
}
// 把从input里读取的文件内容，放到fileReader的result字段里
reader.readAsBinaryString(file);
复制代码

formData异步上传

FormData对象主要用来组装一组用 XMLHttpRequest发送请求的键/值对，能够更加灵活地发送Ajax请求。可使用FormData来模拟表单提交。

let files = e.target.files // 获取input的file对象
let formData = new FormData();
formData.append('file', file);
axios.post(url, formData);
复制代码

服务端处理方式与直接form表单请求基本相同。

iframe无刷新页面

在低版本的浏览器（如IE）上，xhr是不支持直接上传formdata的，所以只能用form来上传文件，而form提交自己会进行页面跳转，这是由于form表单的target属性致使的，其取值有

_self，默认值，在相同的窗口中打开响应页面
_blank，在新窗口打开
_parent，在父窗口打开
_top，在最顶层的窗口打开
framename，在指定名字的iframe中打开

若是须要让用户体验异步上传文件的感受，能够经过framename指定iframe来实现。把form的target属性设置为一个看不见的iframe，那么返回的数据就会被这个iframe接受，所以只有该iframe会被刷新，至于返回结果，也能够经过解析这个iframe内的文原本获取。

function upload(){
    var now = +new Date()
    var id = 'frame' + now
    $("body").append(`<iframe style="display:none;" name="${id}" id="${id}" />`);

    var $form = $("#myForm")
    $form.attr({
        "action": '/index.php',
        "method": "post",
        "enctype": "multipart/form-data",
        "encoding": "multipart/form-data",
        "target": id
    }).submit()

    $("#"+id).on("load", function(){
        var content = $(this).contents().find("body").text()
        try{
            var data = JSON.parse(content)
        }catch(e){
            console.log(e)
        }
    })
}
复制代码

大文件上传

如今来看看在上面提到的几种上传方式中实现大文件上传会碰见的超时问题，

表单上传和iframe无刷新页面上传，实际上都是经过form标签进行上传文件，这种方式将整个请求彻底交给浏览器处理，当上传大文件时，可能会碰见请求超时的情形
经过fromData，其实际也是在xhr中封装一组请求参数，用来模拟表单请求，没法避免大文件上传超时的问题
编码上传，咱们能够比较灵活地控制上传的内容

大文件上传最主要的问题就在于：在同一个请求中，要上传大量的数据，致使整个过程会比较漫长，且失败后须要重头开始上传。试想，若是咱们将这个请求拆分红多个请求，每一个请求的时间就会缩短，且若是某个请求失败，只须要从新发送这一次请求便可，无需从头开始，这样是否能够解决大文件上传的问题呢？

综合上面的问题，看来大文件上传须要实现下面几个需求

支持拆分上传请求(即切片)
支持断点续传
支持显示上传进度和暂停上传

接下来让咱们依次实现这些功能，看起来最主要的功能应该就是切片了。

文件切片

参考：大文件切割上传

编码方式上传中，在前端咱们只要先获取文件的二进制内容，而后对其内容进行拆分，最后将每一个切片上传到服务端便可。

在JavaScript中，文件FIle对象是Blob对象的子类，Blob对象包含一个重要的方法slice，经过这个方法，咱们就能够对二进制文件进行拆分。

下面是一个拆分文件的示例

function slice(file, piece = 1024 * 1024 * 5) {
  let totalSize = file.size; // 文件总大小
  let start = 0; // 每次上传的开始字节
  let end = start + piece; // 每次上传的结尾字节
  let chunks = []
  while (start < totalSize) {
    // 根据长度截取每次须要上传的数据
    // File对象继承自Blob对象，所以包含slice方法
    let blob = file.slice(start, end); 
    chunks.push(blob)

    start = end;
    end = start + piece;
  }
  return chunks
}
复制代码

将文件拆分红piece大小的分块，而后每次请求只须要上传这一个部分的分块便可

let file =  document.querySelector("[name=file]").files[0];

const LENGTH = 1024 * 1024 * 0.1;
let chunks = slice(file, LENGTH); // 首先拆分切片

chunks.forEach(chunk=>{
  let fd = new FormData();
  fd.append("file", chunk);
  post('/mkblk.php', fd)
})
复制代码

服务器接收到这些切片后，再将他们拼接起来就能够了，下面是PHP拼接切片的示例代码

$filename = './upload/' . $_POST['filename'];//肯定上传的文件名
//第一次上传时没有文件，就建立文件，此后上传只须要把数据追加到此文件中
if(!file_exists($filename)){
    move_uploaded_file($_FILES['file']['tmp_name'],$filename);
}else{
    file_put_contents($filename,file_get_contents($_FILES['file']['tmp_name']),FILE_APPEND);
    echo $filename;
}
复制代码

测试时记得修改nginx的server配置，不然大文件可能会提示413 Request Entity Too Large的错误。

server {
	// ...
	client_max_body_size 50m;
}
复制代码

上面这种方式来存在一些问题

没法识别一个切片是属于哪个切片的，当同时发生多个请求时，追加的文件内容会出错
切片上传接口是异步的，没法保证服务器接收到的切片是按照请求顺序拼接的

所以接下来咱们来看看应该如何在服务端还原切片。

还原切片

在后端须要将多个相同文件的切片还原成一个文件，上面这种处理切片的作法存在下面几个问题

如何识别多个切片是来自于同一个文件的，这个能够在每一个切片请求上传递一个相同文件的context参数
如何将多个切片还原成一个文件
- 确认全部切片都已上传，这个能够经过客户端在切片所有上传后调用mkfile接口来通知服务端进行拼接
- 找到同一个context下的全部切片，确认每一个切片的顺序，这个能够在每一个切片上标记一个位置索引值
- 按顺序拼接切片，还原成文件

上面有一个重要的参数，即context，咱们须要获取为一个文件的惟一标识，能够经过下面两种方式获取

根据文件名、文件长度等基本信息进行拼接，为了不多个用户上传相同的文件，能够再额外拼接用户信息如uid等保证惟一性
根据文件的二进制内容计算文件的hash，这样只要文件内容不同，则标识也会不同，缺点在于计算量比较大.

修改上传代码，增长相关参数

// 获取context，同一个文件会返回相同的值
function createContext(file) {
 	return file.name + file.length
}

let file = document.querySelector("[name=file]").files[0];
const LENGTH = 1024 * 1024 * 0.1;
let chunks = slice(file, LENGTH);

// 获取对于同一个文件，获取其的context
let context = createContext(file);

let tasks = [];
chunks.forEach((chunk, index) => {
  let fd = new FormData();
  fd.append("file", chunk);
  // 传递context
  fd.append("context", context);
  // 传递切片索引值
  fd.append("chunk", index + 1);
	
  tasks.push(post("/mkblk.php", fd));
});
// 全部切片上传完毕后，调用mkfile接口
Promise.all(tasks).then(res => {
  let fd = new FormData();
  fd.append("context", context);
  fd.append("chunks", chunks.length);
  post("/mkfile.php", fd).then(res => {
    console.log(res);
  });
});
复制代码

在mkblk.php接口中，咱们经过context来保存同一个文件相关的切片

// mkblk.php
$context = $_POST['context'];
$path = './upload/' . $context;
if(!is_dir($path)){
    mkdir($path);
}
// 把同一个文件的切片放在相同的目录下
$filename = $path .'/'. $_POST['chunk'];
$res = move_uploaded_file($_FILES['file']['tmp_name'],$filename);
复制代码

除了上面这种简单经过目录区分切片的方法以外，还能够将切片信息保存在数据库来进行索引。接下来是mkfile.php接口的实现，这个接口会在全部切片上传后调用

// mkfile.php
$context = $_POST['context'];
$chunks = (int)$_POST['chunks'];

//合并后的文件名
$filename = './upload/' . $context . '/file.jpg'; 
for($i = 1; $i <= $chunks; ++$i){
    $file = './upload/'.$context. '/' .$i; // 读取单个切块
    $content = file_get_contents($file);
    if(!file_exists($filename)){
        $fd = fopen($filename, "w+");
    }else{
        $fd = fopen($filename, "a");
    }
    fwrite($fd, $content); // 将切块合并到一个文件上
}
echo $filename;
复制代码

这样就解决了上面的两个问题：

识别切片来源
保证切片拼接顺序

断点续传

即便将大文件拆分红切片上传，咱们仍需等待全部切片上传完毕，在等待过程当中，可能发生一系列致使部分切片上传失败的情形，如网络故障、页面关闭等。因为切片未所有上传，所以没法通知服务端合成文件。这种状况下能够经过断点续传来进行处理。

断点续传指的是：能够从已经上传部分开始继续上传未完成的部分，而没有必要从头开始上传，节省上传时间。

因为整个上传过程是按切片维度进行的，且mkfile接口是在全部切片上传完成后由客户端主动调用的，所以断点续传的实现也十分简单：

在切片上传成功后，保存已上传的切片信息
当下次传输相同文件时，遍历切片列表，只选择未上传的切片进行上传
全部切片上传完毕后，再调用mkfile接口通知服务端进行文件合并

所以问题就落在了如何保存已上传切片的信息了，保存通常有两种策略

能够经过locaStorage等方式保存在前端浏览器中，这种方式不依赖于服务端，实现起来也比较方便，缺点在于若是用户清除了本地文件，会致使上传记录丢失
服务端自己知道哪些切片已经上传，所以能够由服务端额外提供一个根据文件context查询已上传切片的接口，在上传文件前调用该文件的历史上传记录

下面让咱们经过在本地保存已上传切片记录，来实现断点上传的功能

// 获取已上传切片记录
function getUploadSliceRecord(context){
  let record = localStorage.getItem(context)
  if(!record){
    return []
  }else {
    try{
      return JSON.parse(record)
    }catch(e){}
  }
}
// 保存已上传切片
function saveUploadSliceRecord(context, sliceIndex){
  let list = getUploadSliceRecord(context)
  list.push(sliceIndex)
  localStorage.setItem(context, JSON.stringify(list))
}
复制代码

而后对上传逻辑稍做修改，主要是增长上传前检测是已经上传、上传后保存记录的逻辑

let context = createContext(file);
// 获取上传记录
let record = getUploadSliceRecord(context);
let tasks = [];
chunks.forEach((chunk, index) => {
  // 已上传的切片则再也不从新上传
  if(record.includes(index)){
    return
  }
	
  let fd = new FormData();
  fd.append("file", chunk);
  fd.append("context", context);
  fd.append("chunk", index + 1);

  let task = post("/mkblk.php", fd).then(res=>{
    // 上传成功后保存已上传切片记录
    saveUploadSliceRecord(context, index)
    record.push(index)
  })
  tasks.push(task);
});
复制代码

此时上传时刷新页面或者关闭浏览器，再次上传相同文件时，以前已经上传成功的切片就不会再从新上传了。

服务端实现断点续传的逻辑基本类似，只要在getUploadSliceRecord内部调用服务端的查询接口获取已上传切片的记录便可，所以这里再也不展开。

此外断点续传还须要考虑切片过时的状况：若是调用了mkfile接口，则磁盘上的切片内容就能够清除掉了，若是客户端一直不调用mkfile的接口，听任这些切片一直保存在磁盘显然是不可靠的，通常状况下，切片上传都有一段时间的有效期，超过该有效期，就会被清除掉。基于上述缘由，断点续传也必须同步切片过时的实现逻辑。

上传进度和暂停

经过xhr.upload中的progress方法能够实现监控每个切片上传进度。

上传暂停的实现也比较简单，经过xhr.abort能够取消当前未完成上传切片的上传，实现上传暂停的效果，恢复上传就跟断点续传相似，先获取已上传的切片列表，而后从新发送未上传的切片。

因为篇幅关系，上传进度和暂停的功能这里就先不实现了。

小结

目前社区已经存在一些成熟的大文件上传解决方案，如七牛SDK，腾讯云SDK等，也许并不须要咱们手动去实现一个简陋的大文件上传库，可是了解其原理仍是十分有必要的。

本文首先整理了前端文件上传的几种方式，而后讨论了大文件上传的几种场景，以及大文件上传须要实现的几个功能

经过Blob对象的slice方法将文件拆分红切片
整理了服务端还原文件所需条件和参数，演示了PHP将切片还原成文件
经过保存已上传切片的记录来实现断点续传

还留下了一些问题，如：合并文件时避免内存溢出、切片失效策略、上传进度暂停等功能，并无去深刻或一一实现，继续学习吧~