Apache CarbonData:大数据生态一种新的高性能数据格式

  随着数据与日俱增,业务驱动下的数据分析灵活性要求愈来愈高,不一样场景的数据分业务系统而构建,致使冗余严重,缺少高效、统一的融合数仓,阻碍企业快速转型。git

企业典型的诉求总结以下:github

第一,数据统一存储:为了节约成本,企业但愿一份数据支持多种使用场景;减小数据孤岛和冗余,经过数据共享产生更大价值。数据库

第二,高效:数据分析要求愈来愈高效、实时。apache

第三,易集成:提供标准接口,新的大数据方案与企业已采购的工具和IT系统要能无缝集成,支撑老业务快速迁移。微信

第四,大集群:区别于以往的单机系统,企业客户但愿新的大数据方案能应对日益增多的数据,随时能够经过增长资源的方式横向扩展,无极扩容。架构

第五,开放生态:经过开源开放,让更多的客户和合做伙伴的数据链接在一块儿,发挥更大的价值。框架

  华为针对上述典型诉求,从2013年开始调研分析业界大数据方案,发现每种技术都只能解决某种场景的诉求,不能同时知足上述的全部诉求,如:并行数据库技术不能有效与Hadoop生态集成,数据不能统一共享存储;搜索类技术提高了性能,可是数据膨胀很大,不支持标准SQL、不能兼容老的业务,这促使了华为着手开发CarbonData项目。整个大数据时代的开启,能够说是源自于Google的MapReduce论文,他引起了Hadoop开源项目以及后续一系列的生态发展。他的“伟大”之处在于计算和存储解耦的架构,使企业的部分业务(主要是批处理)从传统的垂直方案中解放出来,计算和存储能够按需扩展极大提高了业务发展的敏捷性,让众多企业普及了这一计算模式,从中受益。CarbonData借鉴了这一理念,存储和计算逻辑上分离,经过索引技术让存储和计算物理上更接近,提高CPU和IO效率,实现超高性能的大数据分析工具

  • 列式存储:高效的列式数据组织,区别于行存,能够实现列裁剪和过滤下压,使OLAP查询性能更高。同时,CarbonData针对明细数据查询实现了深度优化,在须要返回全部列的场景下性能优于其余列存方案。
  • 丰富的索引支持:支持全局多维索引、文件索引、Min/Max、倒排索引等多种索引技术,从表级,文件级,列级等多个层级逐级快速定位数据,避免SQL-on-Hadoop引擎常见的“暴力扫描“,从而大幅提高性能,实现十年数据秒级响应, 三百维字段任意组合查询。
  • 全局字典编码:除了常见的Delta、RLE、BitPacking等编码外,CarbonData应用了全局字典编码来实现免解码的计算,计算框架能够直接使用通过编码的数据来作聚合,排序等计算,这对须要作跨节点数据交换的业务来讲性能提高很是明显(3倍以上)。
  • 自适应类型转换:CarbonData针对分析型应用中大量使用的数值类型(Double/Decimal/Numeric/BigInt)实现存储内数据类型转换,配合列式数据压缩,使得压缩很是高效,数据压缩率基于应用场景不一样通常压缩比在2到8之间。
  • 标准SQL和API:在SparkSQL基础上,支持标准SQL99/2003;支持数据批量更新、删除,适用于OLAP场景下数据的周期性刷新,例如拉链表更新、维表数据同步。提供JDBC/ODBC链接,支持与BI工具无缝对接;兼容Spark DataFrame/DataSet,支持复杂分析应用。
  • 数据生态集成:支持与Hadoop、Spark等大数据生态系统集成,支持和商业BI工具无缝对接。既知足传统数仓、数据集市、BI应用要求,也提供大数据生态丰富多样的API支持,覆盖从GB级到EB级应用。
  • 开源开放: CarbonData于2016年6月3日全票经过进入大数据领域全球最大的开源社区Apache,半年时间里,Apache社区代码贡献者超过60人。目前特性贡献来自于华为、Intel、Talend、Ebay、Inmobi、Knoldus、阿里、美团、乐视、滴滴等公司资深架构师和开发人员。

Apache CarbonData致力于推进大数据开源技术的持续发展,以一份数据同时知足多种业务场景诉求,打造高效、开放、完整生态的大数据新融合数仓。欢迎你们参与到社区建设:oop

  • 目前已经发布了三个Apache稳定本:http://mirrors.cnnic.cn/apache/incubator/carbondata/
  • Code:      https://github.com/apache/incubator-carbondata or https://git.oschina.net/CarbonData/ApacheCarbonData
  • JIRA:       https://issues.apache.org/jira/browse/CARBONDATA
  • Mailinglist: dev@carbondata.incubator.apache.org
  • Cwiki:        https://cwiki.apache.org/confluence/display/CARBONDATA/CarbonData+Home
  • 主页(完善中): http://carbondata.apache.org

可关注CarbonData微信公众号:ApacheCarbonData,及时得到最新进展信息。性能

相关文章
相关标签/搜索