节省60%费用!巧用阿里云归档存储下降基因测序成本

“若是有款存储产品能在保证业务正常运行的时候节省60%的成本,我会坚决果断选择它”。
个人工做是作生物基因测序的,咱们公司很早就在云上搭建了数据分析平台(云的优点很少说了,省心省钱),数据经过采集设备生成后,会当即上传到云端进行预订的测序分析。固然了,考虑到算法更新,这些数据都是保存在云端的,有了新的分析方法就能够进行更多维度的分析,无需从新采集。
存储周期长是基因数据的特色,在采集后的最初几个月内会被频繁访问,对于数据实时的响应性要求极高。但通过开始的几个月后,原始数据访问频率就开始大幅降低,因此咱们尽可能会寻找不一样访问特性的存储,去下降总存储成本。
以前咱们用的一直是阿里云的OSS标准存储,虽然速度快、延迟低、吞吐能力强,但对咱们业务的不一样时期来讲有些“性能过剩”。因此当咱们看到阿里云新上线的归档存储OSSArchive的价格的时候,说句实话,挺惊讶的:毕竟这款产品比OSS便宜得多。而后又想到阿里云看的挺远,难免有些服气。
归档存储有多便宜呢?相比标准存储低了近60%,适用于长期(几年甚至更长时间)存储的归档数据取回。按照存储容量300TB来计算,若是使用归档类型存储一年是221184元,即便与300TB年存储包相比,也可节省11万元以上。

111

对基因行业,这是个很是大的惊喜,由于每一个基因文件的大小在几GB到几十GB不等,随着基因测序的需求增长,存储规模增加很是快,其在总成本中占有的比例也在不断增大。
另外一个吸引个人地方是归档存储采用的是OSS标准API,跟咱们现有的数据管理与分析平台彻底配套,无需进行平台改造。
归档存储的上手很是简单,咱们通过了几天的方案验证后,很快完成了全新的业务架构搭建。
下面是一个归档类型Bucket建立、文件上传、查询、解冻与下载的简单流程:算法

一、建立归档类型的Bucket

首先经过控制台建立一个归档类型Bucket,当前阿里云OSS开放的是华北2(北京)区域,开通归档类型Bucket流程和其余存储类型Bucket是相同的。

22222
数据库

二、上传数据

OSS提供的ossutil工具能够自动根据文件大小适配上传模式,包括PUT 上传、分片上传。基因文件广泛都是GB级以上,须要经过分片机制,将大文件可以拆分红多个片断独立上传。markdown

三、查询文件列表

OSS API和相关工具能够实时查询文件列表。

001
架构

四、文件解冻

归档存储与标准类型在读取Object前,须要有一个Restore操做,按照OSSArchive文档中介绍,上传到归档类型的Object处于冷冻状态,须要先解冻后进入到可读取状态,Restore操做后须要等待1~4个小时的等待时间。

002

在Restore解冻过程当中的Object会显示ongoing-request="true"。
解冻完成后,查询Object状态会显示解冻完成能够直接下载,expiry-date为过时时间,过时时间一到,Object会从新进入冷冻状态。

003

解冻操做是须要收取费用的,每解冻 1GB数据须要0.06元,因此不须要当即使用的Object仍是让它安安静静的保存吧。解冻完成24小时后Object会从新回到冷冻状态,参考官网文档处于解冻状态下,能够经过屡次调用Restore,使Object最长保持七天可读状态。工具

五、文件下载、读取分析

已经解冻的Object能够和标准类型的Object同样的下载方式 。
对于基因数据的管理,咱们对每一个基因文件的元信息使用了数据库保存,每一个基因文件都会记录上传时期和近半年内使用信息,对于上传时间超过必定时期而且长期没有访问的基因文件,会从标准类型的Bucket中迁移到归档类型Bucket。
归档存储类型整体使用下来的体验不错,也给OSS产品提个建议吧,但愿后期能支持加入Restore解冻完成的事件通知,如今应用程序实现中都是每隔一小时去获取下Restore的状态。
来源:搜狐网
原文连接性能