基于OSS的EB级数据湖

背景

随着数据量的爆发式增加,数字化转型成为整个IT行业的热点,数据也开始须要更深度的价值挖掘,所以须要确保数据中保留的原始信息不丢失,从而应对将来不断变化的需求。当前以oracle为表明的数据库中间件已经逐渐没法适应这样的需求,因而业界也不断的产生新的计算引擎,以便应对数据时代的到来。在此背景下,数据湖的概念被愈来愈多的人提起,但愿能有一套系统在保留数据的原始信息状况下,又能快速对接多种不一样的计算平台,从而在数据时代占据先机。数据库

概述

什么是数据湖

数据湖(Data Lake)以集中式存储各类类型数据,包括:结构化、半结构化、非结构化数据。数据湖无需事先定义Schema,数据能够按照原始形态直接存储,覆盖多种类型的数据输入源。数据湖无缝对接多种计算分析平台,对Hadoop生态支持良好,存储在数据湖中的数据能够直接对其进行数据分析、处理、查询,经过对数据深刻挖掘与分析,洞察数据中蕴含的价值。安全

数据湖的关键特征与价值

  • 海量数据存储:面向海量数据存储设计,彻底独立于计算框架以外,无需额外的挂载操做,数据可直接访问,具有极大的灵活性和弹性能力,足以应对数据爆炸式发展,同时支持多层冗余能力,实现数据高可靠与高可用微信

  • 高效数据计算:丰富的数据存储类型和共享能力,支持存储结构化、半结构化、非结构化数据,同时能够适配多种不一样的计算平台,避免数据孤岛与无效的数据拷贝架构

  • 安全数据管理:支持数据目录功能,智能化的管理海量的数据资产,经过精细化权限控制保障数据安全oracle

基于OSS的数据湖存储

OSS介绍

阿里云对象存储OSS(Object Storage Service)是阿里云提供的海量、安全、低成本、高可靠的云存储服务。其数据设计持久性不低于99.9999999999%(12个9),服务可用性(或业务连续性)不低于99.995%。OSS具备与平台无关的RESTful API接口,您能够在任何应用、任什么时候间、任何地点存储和访问任意类型的数据。app

基于OSS构建数据湖存储

OSS在做为数据湖存储,充分知足数据湖的关键特性:框架

海量数据存储:

  • OSS采用分布式系统架构,扁平命名空间设计,支持无限制的存储规模,而且性能和容量能够随着系统扩展线性提高分布式

  • OSS支持弹性扩容,容量自动扩展,不限制存储空间大小,用户能够根据所需存储量无限扩展存储空间,并只按照实际使用量收取费用,无需客户本身提早配置oop

  • OSS支持数据高可用,1)在同一地域内(region)采用多可用区(AZ)冗余机制以及跨地域的复制机制,避免单点故障致使数据丢失或没法访问;2)支持数据周期性校验,避免静默数据损坏;3)支持Object操做强一致性,写入Object的数据在返回成功响应后,当即可读;4)支持多版本能力,防止数据误删。总体OSS知足12个9的数据持久性以及995%的服务可用性性能

高效数据计算:

  • OSS提供RESTFul API,具备互联网可访问能力,用户能够随时随地当即存储或者访问数据,无需提早进行映射和挂载操做

  • OSS兼容开源Hadoop生态,且无缝对接阿里云多种不一样的计算平台,使得数据无需拷贝便可被计算平台共享使用。同时针对部分计算平台优化特定操做,从而提高数据处理性能

  • OSS支持算子卸载能力,目前提供了Select语句支持,可让用户从单个文件中仅读取须要的数据,从而提高数据获取效率

安全数据管理:

  • OSS支持数据生命周期管理,用户能够经过设置生命周期规则,将符合规则的数据自动删除或者转储到更低成本的存储中

  • OSS支持客户端和服务端两种数据加密能力,用户能够根据自身状况灵活选择加密方案,避免数据泄露

  • OSS经过WORM(Write Once Read Many)特性,支持数据保留合规,容许用户以“不可删除、不可篡改”方式保存和使用数据,符合美国证券交易委员会(SEC)和金融业监管局(FINRA)的合规要求(OSS已得到对应的合规认证)

  • OSS支持多种数据访问安全控制策略,实现针对bucket、object、role的长期或者临时受权,从而知足最小权限数据共享的安全策略

总结

综合以上内容,在将来面向海量数据的数据湖场景下,对象存储OSS很是适合企业构建海量、高效、安全的数据湖。


更多数据湖相关信息交流请加入阿里巴巴数据湖技术钉钉群(保存图片后用钉钉扫码)


本文分享自微信公众号 - Apache Spark技术交流社区(E-MapReduce_Spark)。
若有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一块儿分享。

相关文章
相关标签/搜索