基于OSS的EB级数据湖

背景

随着数据量的爆发式增加，数字化转型成为整个IT行业的热点，数据也开始须要更深度的价值挖掘，所以须要确保数据中保留的原始信息不丢失，从而应对将来不断变化的需求。当前以oracle为表明的数据库中间件已经逐渐没法适应这样的需求，因而业界也不断的产生新的计算引擎，以便应对数据时代的到来。在此背景下，数据湖的概念被愈来愈多的人提起，但愿能有一套系统在保留数据的原始信息状况下，又能快速对接多种不一样的计算平台，从而在数据时代占据先机。数据库

概述

什么是数据湖

数据湖（Data Lake）以集中式存储各类类型数据，包括：结构化、半结构化、非结构化数据。数据湖无需事先定义Schema，数据能够按照原始形态直接存储，覆盖多种类型的数据输入源。数据湖无缝对接多种计算分析平台，对Hadoop生态支持良好，存储在数据湖中的数据能够直接对其进行数据分析、处理、查询，经过对数据深刻挖掘与分析，洞察数据中蕴含的价值。安全

数据湖的关键特征与价值

海量数据存储：面向海量数据存储设计，彻底独立于计算框架以外，无需额外的挂载操做，数据可直接访问，具有极大的灵活性和弹性能力，足以应对数据爆炸式发展，同时支持多层冗余能力，实现数据高可靠与高可用微信
高效数据计算：丰富的数据存储类型和共享能力，支持存储结构化、半结构化、非结构化数据，同时能够适配多种不一样的计算平台，避免数据孤岛与无效的数据拷贝架构
安全数据管理：支持数据目录功能，智能化的管理海量的数据资产，经过精细化权限控制保障数据安全oracle

基于OSS的数据湖存储

OSS介绍

阿里云对象存储OSS（Object Storage Service）是阿里云提供的海量、安全、低成本、高可靠的云存储服务。其数据设计持久性不低于99.9999999999%（12个9），服务可用性（或业务连续性）不低于99.995%。OSS具备与平台无关的RESTful API接口，您能够在任何应用、任什么时候间、任何地点存储和访问任意类型的数据。app

基于OSS构建数据湖存储

OSS在做为数据湖存储，充分知足数据湖的关键特性：框架

海量数据存储：

OSS采用分布式系统架构，扁平命名空间设计，支持无限制的存储规模，而且性能和容量能够随着系统扩展线性提高分布式
OSS支持弹性扩容，容量自动扩展，不限制存储空间大小，用户能够根据所需存储量无限扩展存储空间，并只按照实际使用量收取费用，无需客户本身提早配置oop
OSS支持数据高可用，1）在同一地域内（region）采用多可用区（AZ）冗余机制以及跨地域的复制机制，避免单点故障致使数据丢失或没法访问；2）支持数据周期性校验，避免静默数据损坏；3）支持Object操做强一致性，写入Object的数据在返回成功响应后，当即可读；4）支持多版本能力，防止数据误删。总体OSS知足12个9的数据持久性以及995%的服务可用性性能

高效数据计算：

OSS提供RESTFul API，具备互联网可访问能力，用户能够随时随地当即存储或者访问数据，无需提早进行映射和挂载操做
OSS兼容开源Hadoop生态，且无缝对接阿里云多种不一样的计算平台，使得数据无需拷贝便可被计算平台共享使用。同时针对部分计算平台优化特定操做，从而提高数据处理性能
OSS支持算子卸载能力，目前提供了Select语句支持，可让用户从单个文件中仅读取须要的数据，从而提高数据获取效率

安全数据管理：

OSS支持数据生命周期管理，用户能够经过设置生命周期规则，将符合规则的数据自动删除或者转储到更低成本的存储中
OSS支持客户端和服务端两种数据加密能力，用户能够根据自身状况灵活选择加密方案，避免数据泄露
OSS经过WORM（Write Once Read Many）特性，支持数据保留合规，容许用户以“不可删除、不可篡改”方式保存和使用数据，符合美国证券交易委员会（SEC）和金融业监管局（FINRA）的合规要求（OSS已得到对应的合规认证）
OSS支持多种数据访问安全控制策略，实现针对bucket、object、role的长期或者临时受权，从而知足最小权限数据共享的安全策略

总结

综合以上内容，在将来面向海量数据的数据湖场景下，对象存储OSS很是适合企业构建海量、高效、安全的数据湖。

更多数据湖相关信息交流请加入阿里巴巴数据湖技术钉钉群（保存图片后用钉钉扫码）

本文分享自微信公众号 - Apache Spark技术交流社区（E-MapReduce_Spark）。
若有侵权，请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一块儿分享。