函数计算对上传的 zip 代码包尺寸限制为 50M。某些场景中代码包中会超过这一限制,好比未经裁剪的 serverless-chrome ,相似的还有 libreoffice ,此外常见的还有机器学习训练的模型文件。 目前解决大文件问题有三种方法前端
简单的比较一下这三种方法的优劣java
方法 | 优势 | 缺点 |
---|---|---|
高密度压缩 | 发布简单,启动最快 | 上传代码包较慢;要写解压代码;大小受限制不超过 50 M |
OSS | 下载解压后文件不超过 512 M | 须要预先上传至 OSS;要写下载和解压代码,大概 50M/s 的下载速度 |
NAS | 文件大小没有限制,无需压缩 | 须要预先上传至 NAS;VPC 环境有冷启动时延(~5s) |
正常状况下若是代码包能控制在 50M 如下启动较快。并且工程上也比较简单,数据和代码放在一块儿,不须要额外的写脚本去同步更新 OSS 或者 NAS。git
Brotli 是 Google 工程师开发的开源压缩算法,目前已经被新版的主流浏览器支持,做为 HTTP 传输的压缩算法。下面是在网上找到的关于 Brotli 和其余常见压缩算法对比基准测试。github
从上面三幅图咱们能够看出:相比于 gzip、xz 和 bz2,brotli 有最高的压缩比,接近于 gzip 的解压速度,以及最慢的压缩速度。算法
然而在咱们的场景对于压缩慢这一缺点不敏感,压缩任务只要在开发准备物料的阶段执行一次就行了。chrome
下面我先介绍一下如何制做压缩文件。下面的代码和用例都来自于项目 packed-selenium-java-example 。apache
Mac 用户编程
brew install brotli
Windows 用户能够去这个界面下载,https://github.com/google/brotli/releases后端
打包前两个文件大小分别为 7.5M 和 97M浏览器
╭─ ~/D/test1[◷ 18:15:21] ╰─ ll total 213840 -rwxr-xr-x 1 vangie staff 7.5M 3 5 11:13 chromedriver -rwxr-xr-x 1 vangie staff 97M 1 25 2018 headless-chromium
使用 GZip 打包并压缩,大小为 44 M。
╭─ ~/D/test1[◷ 18:15:33] ╰─ tar -czvf chromedriver.tar chromedriver headless-chromium a chromedriver a headless-chromium ╭─ ~/D/test1[◷ 18:16:41] ╰─ ll total 306216 -rwxr-xr-x 1 vangie staff 7.5M 3 5 11:13 chromedriver -rw-r--r-- 1 vangie staff 44M 3 6 18:16 chromedriver.tar -rwxr-xr-x 1 vangie staff 97M 1 25 2018 headless-chromium
tar 去掉 z 选项再打包一遍,大小为 104M
╭─ ~/D/test1[◷ 18:16:42] ╰─ tar -cvf chromedriver.tar chromedriver headless-chromium a chromedriver a headless-chromium ╭─ ~/D/test1[◷ 18:17:06] ╰─ ll total 443232 -rwxr-xr-x 1 vangie staff 7.5M 3 5 11:13 chromedriver -rw-r--r-- 1 vangie staff 104M 3 6 18:17 chromedriver.tar -rwxr-xr-x 1 vangie staff 97M 1 25 2018 headless-chromium
压缩后的大小为 33M,相比 Gzip 的 44M 小了很多。耗时也很是的感人 6 分 18 秒,Gzip 只要 5 秒。
╭─ ~/D/test1[◷ 18:17:08] ╰─ time brotli -q 11 -j -f chromedriver.tar brotli -q 11 -j -f chromedriver.tar 375.39s user 1.66s system 99% cpu 6:18.21 total ╭─ ~/D/test1[◷ 18:24:23] ╰─ ll total 281552 -rwxr-xr-x 1 vangie staff 7.5M 3 5 11:13 chromedriver -rw-r--r-- 1 vangie staff 33M 3 6 18:17 chromedriver.tar.br -rwxr-xr-x 1 vangie staff 97M 1 25 2018 headless-chromium
下面以 java maven 项目为例
<dependency> <groupId>org.apache.commons</groupId> <artifactId>commons-compress</artifactId> <version>1.18</version> </dependency> <dependency> <groupId>org.brotli</groupId> <artifactId>dec</artifactId> <version>0.1.2</version> </dependency>
commons-compress
是 apache 提供的解压缩工具包,对于各类压缩算法提供一致的抽象接口,其中对于 brotli 算法只支持解压,这里足够了。org.brotli:dec
包是 Google 提供的 brotli 解压算法的底层实现。
public class ChromeDemo implements FunctionInitializer { public void initialize(Context context) throws IOException { Instant start = Instant.now(); try (TarArchiveInputStream in = new TarArchiveInputStream( new BrotliCompressorInputStream( new BufferedInputStream( new FileInputStream("chromedriver.tar.br"))))) { TarArchiveEntry entry; while ((entry = in.getNextTarEntry()) != null) { if (entry.isDirectory()) { continue; } File file = new File("/tmp/bin", entry.getName()); File parent = file.getParentFile(); if (!parent.exists()) { parent.mkdirs(); } System.out.println("extract file to " + file.getAbsolutePath()); try (FileOutputStream out = new FileOutputStream(file)) { IOUtils.copy(in, out); } Files.setPosixFilePermissions(file.getCanonicalFile().toPath(), getPosixFilePermission(entry.getMode())); } } Instant finish = Instant.now(); long timeElapsed = Duration.between(start, finish).toMillis(); System.out.println("Extract binary elapsed: " + timeElapsed + "ms"); } }
实现 FunctionInitializer
接口的 initialize
方法。解压过程刚开始是四层嵌套流,做用分别以下:
FileInputStream
读取文件BufferedInputStream
提供缓存,介绍系统调用带来的上下文切换,提示读取的速度BrotliCompressorInputStream
对字节流进行解码TarArchiveInputStream
把 tar 包里的文件逐个解出来而后 Files.setPosixFilePermissions
的做用是还原 tar 包中文件的权限。代码太长此处略去,参阅 packed-selenium-java-example
Instant start = Instant.now(); ... Instant finish = Instant.now(); long timeElapsed = Duration.between(start, finish).toMillis(); System.out.println("Extract binary elapsed: " + timeElapsed + "ms");
上面的代码段会打印出解压的耗时,真实执行大概在 3.7 s 左右。
最后不要忘记在 template.yml
里配置上 Initializer
和 InitializationTimeout
阿里云函数服务是一个全新的,支持事件驱动编程模式的计算服务。 他帮助用户聚焦自身业务逻辑,以 Serverless的方式构建应用,快速的实现低成本,可扩展,高可用的系统,而无需考虑服务器等底层基础设施的管理。 用户可以快速的建立原型,一样的架构能随业务规模平滑伸缩。让计算变得更高效,更经济,更弹性,更可靠。不管小型创业公司,仍是大型企业,都受益其中。咱们的团队正在迅速扩张,求贤若渴。咱们想寻找这样的队友: 基本功扎实。既能阅读论文追踪业界趋势,又能快速编码解决实际问题。 严谨的,系统化的思惟能力。既能总体考虑业务机会,系统架构,运维成本等诸多因素,又能掌控设计/开发/测试/发布的完整流程,预判并控制风险。 好奇心和使命感驱动。乐于探索未知领域,不只是梦想家,也是践行者。 坚韧、乐观、自信。能在压力和困难中看到机会,让工做充满乐趣! 若是您对云计算充满热情,想要构建一个有影响力计算平台和生态体系,请加入咱们,和咱们一块儿实现梦想!
构建新一代 Serverless 计算平台,包括:
yixian.dw AT alibaba-inc.com
“阿里巴巴云原生技术圈关注微服务、Serverless、容器、Service Mesh 等技术领域、聚焦云原生流行技术趋势、云原生大规模的落地实践,作最懂云原生开发者的技术圈。”