主要介绍OSS上支持开源数据格式_和计算打通的场景

时间 2019-11-08

标签主要介绍 oss 支持开源数据格式计算打通场景繁體版

原文原文链接

原文连接html

看到标题，可能有用户要问：OSS不是用来存图片、视频、及文件的吗，还能够在上面建表、数仓？计算效率和经济性表现怎么样？apache

本文先给出基本结论：安全

OSS是什么?

对象存储（Object Storage Service，简称OSS）是基于阿里云飞天分布式系统的海量、安全和高可靠的云存储服务，是一种面向互联网的大规模、通用存储，提供RESTful API，具有容量和处理的弹性扩展能力。网络

基于OSS是否能够建立数据表？

既然能够把摄像头推流接到OSS，建表属于小Case了。而且2016年在亦龙大神的帮助下，Hadoop社区在官方版本中支持OSS，开启了阿里云存储与开源融合的新里程碑。架构

OSS上建表是否易用？

今天为了下降OSS上建表的门槛，日志服务（原SLS）LogHub能够支持OSS上表的实时写入（表类型包括TextFile，列存储Parquet），支持压缩及数据Partition配置。在计算引擎端，咱们已经和阿里云（MaxCompute、E-MapReduce）和主流开源计算引擎（Presto等）打通，无缝使用多种计算引擎热插拔对接。app

既然能够把数据表直接建在HDFS、MaxCompute（原ODPS）上，选择OSS来存储表数据又是为何呢？分布式

存储与计算分离的趋势

在2009年作大规模计算的核心词是“Locality”：让计算尽可能靠近数据以提高效率。当时一个公认的模型是：构建一个足够大的资源池，把数据和计算融合在里面发挥规模效应。ide

但最近几年以来，生态和环境都悄然发生了一些变化：oop

计算模式：全量数据计算模式，逐步被Impala、Presto等更高效计算模式遇上
存储格式：ORC/Parquet/Kudu等列存、索引技术诞生，使得计算不须要Scan大块数据
网络架构：25G网络开始上线，FPGA等技术也加快了网络体验
存储介质：SSD、AliFlash、3D X-Point 大量混合技术使得存储能够“既快又猛”
计算平台：GPU、FGPA、甚至是将来的TPU等改变计算形态

从这些变化使得咱们发现：性能

经过一款机型通吃存储+计算方案，已经演变成存储+计算各自服务化，经过高速网络进行链接的趋势

这种方式可使得存储、计算不用再被”机型“，”机柜“，”电力“等方案束缚，在各自最擅长的领域进行创新。从业界对于”分层“的工做中，咱们也看到了这类的尝试：

案例1：Netflix 基于S3解决方案

Netflix是AWS创新表明，特别是他们的大数据业务。根据2016 Re:Invent上Slides描述，Netflix天天新增500 Billion条日志（数据量500 TB）、存量数仓规模 60PB、天天会对其中3PB数据作计算。

在Slides中Netflix谈到：从2014年开始就决定开始摒弃各类系统隔阂，底层使用了统一存储S3，之上构建各类计算引擎系统。事实证实Netflix这一步走得正确，海量的存储与计算能力使得商业的创新获得了充分释放，成为AWS上使人引觉得傲的学习榜样。

受Netflix启发，AWS 在2016 Re:Invent 上推出了一款新的计算产品Athena：该产品将Presto服务化提供基于各类存储类服务的 Ad-Hoc Query能力。

AWS Athena利用多个可用区(Availability Zones)中的计算资源执行查询，并将S3用做底层数据存储系统，因为数据冗余地存储在多个地点和每一个地点的多个设备中，服务具有很高的可用性和可靠性。

案例2：Facebook RocksDB项目

Google开源了Level DB，而Facebook经过改形成RocksDB使它上升到新高度。RocksDB除了对LSM模型的多个优化外，另外一个很是吸引人的地方在对存储介质、计算层适配得很是友好，能够充分发挥计算和存储的性能。底层的介质与存储对上层API透明热插拔，是在软件设计层面存储+计算分离的一个优美案例。

OSS上创建数仓的优点

优点1：不受限制的存储空间

对于数据仓库来讲最重要一点是海量存储，能为计算分析提供大数据吞吐支持。在这个点上OSS是很是合适的。

结合OSS的目录设置，对大规模（百万级别以上）文件作合理划分，并与计算引擎配合拿到更高的计算效率。LogHub投递OSS存储支持Hive-style分区目录，将数据按照日期存储，能够设置多维分区。

举个例子，咱们有一个应用叫my-app，为应用建立一个dw项目 my-dw，在项目中建立了一组表，以其中一个表my-table做为例子：表中的数据以时间（天）做为partition（例如date='20170330' 表明当天的数据目录)。

整个数仓的层级结构能够映射为OSS的一个访问路径：

my-app 为 OSS 上bucket名称
my-dw 以后则为数仓的项目名（namespace）
my-table是表名
date=20170330是一维分区

优点2：极低的存储成本

OSS 是提供实时数据读写“最便宜”存储产品之一，对于100GB日志数据：

使用列存储编码（以Parquet格式为例），经过snappy压缩后，存储数据量在8 GB左右
以OSS当前官网价格计算，使用OSS存储一个月费用为 8 * 0.148 = 1.184 元
除此以外，OSS有两种根据访问频率可任意转换形态：IA（低频）、Archive（冷备），最低能够下降60%成本。OSS 与 IA，Archive之间数据模型是一致的，数据形态能够很是便捷的转换。

优点3：一份数据，对接多种计算引擎

咱们能够将数据以一种通用的协议存储（例如textfile，sequence file或parquet等），目前OSS上数据支持以下计算引擎：

开源：Spark、Presto、Druid，Pig，Hive等
阿里云：MaxCompute，E-MapReduce、RDS-PG、Batch Compute等

以上计算引擎和存储之间都是热插拔，能够方便地在不一样大小的测试、生产数据集上进行切换组合。

对比与传统数仓方案，数据存储于OSS，计算实现了Schema on Read，使得数据分析的自由度获得了很大提高。

除了支持多种计算引擎外，OSS 自己还有Geo-Replication功能，能够在不一样Region间准实时进行同步，不把鸡蛋放在一个篮子里，以进一步提高重要数据的安全性。

优点4：在计算效率上比肩HDFS类存储

OSS从API上看起来不像HDFS类存储这么细，性能并不必定好？

这里以一个Map-Reduce做业举例，在做业的执行过程当中，OSS会在3个地方被用到：

调度：当查询提交时，须要根据计算数据范围 List OSS目录制定plan，肯定多少文件目录参与计算
运行：每一个Worker根据plan扫描指定目录下文件，读取并进行自定义计算
结果：当计算完成时，写入OSS（计算中间结果产生的Shuffle文件能够写在本机以优化性能，部分场景下也能够选择使用OSS）

可见，对于Ad-Hoc Query类场景，OSS在使用模式上均可以彻底胜任。

开始在OSS分析数据

数据写入

LogHub（推荐）

直接将日志以准实时方式写入OSS，支持JSON、Parquet格式，投递规则配置以下：

数据在OSS存储以下：

2017-04-18 11:50:39 513.75KB oss://oss-shipper-shenzhen-test/tfs_access_log/updatetime=2017_04_18_11_00/log_1492487434507106535_1670221.snappy.parquet 2017-04-18 11:56:01 517.36KB oss://oss-shipper-shenzhen-test/tfs_access_log/updatetime=2017_04_18_11_00/log_1492487754196771821_1670280.snappy.parquet 2017-04-18 12:01:31 537.03KB oss://oss-shipper-shenzhen-test/tfs_access_log/updatetime=2017_04_18_12_00/log_1492488089710991745_1670335.snappy.parquet 2017-04-18 12:06:54 512.95KB oss://oss-shipper-shenzhen-test/tfs_access_log/updatetime=2017_04_18_12_00/log_1492488410774368293_1670389.snappy.parquet 2017-04-18 12:22:55 512.95KB oss://oss-shipper-shenzhen-test/tfs_access_log/updatetime=2017_04_18_12_00/log_1492489370787863606_1670558.snappy.parquet 2017-04-18 12:34:21 261.69KB oss://oss-shipper-shenzhen-test/tfs_access_log/updatetime=2017_04_18_12_00/log_1492490057002827204_1670672.snappy.parquet object list number is: 5451 totalsize is: real:195677878828, format:182.24GB

经过LogHub写入优点：数据接入LogHub多种选择，全托管归档服务，准实时投递，支持异常重试，STS受权。了解OSS投递请参考文档。

OSS API/SDK

使用OSS 各类SDK或API写入，彻底自主的写入方式，参考文档。

计算引擎

E-MapReduce/Spark/Hive 用户：参考社区文档。
MaxCompute 用户（ODPS）：功能内测中。
PG用户：请联系铁庵。
Presto用户：Local File模式，参考社区文档。
其它：随时一个Get，数据所有拿走。

原文连接