Apache新成员:LinkedIn分布式数据集成框架Gobblin

本文由 「AI前线」原创,原文连接: Apache新成员:LinkedIn分布式数据集成框架Gobblin
做者|Abhishek Tiwari
译者|核子可乐
编辑|Emily

AI 前线导读:”LinkedIn 又向 Apache 基金会贡献了一个新的开源项目:Apache Gobblin!”apache


下文转载翻译自 LinkedIn Engineering 博客:框架

Gobblin 是一套分布式数据集成框架,旨在简化大数据集成工做当中的各种常见任务,具体包括数据流与批量生态系统的提取、复制、组织与生命周期管理。分布式

Gobblin 的发展速度很是惊人。自 2014 年 12 月问世以来,Gobblin 一直在开源世界当中快速消化海量大数据资源。目前,其已经由本来主要立足 Hadoop 之上以 mapreduce 模式运行的离线数据接收框架,逐步转化为一套全面而强大的生态系统,且功能涵盖执行环境、数据速度、规模化、链接器以及其它生态系统加强领域中的不一样维度。oop

LinkedIn 拥有丰富的开源项目贡献历史,并已经成为 Apache 软件基金会(旗下拥有 Kafka、Samza 以及 Helix 等多个项目)中的重要成员。延续这一趋势,咱们相信 Gobblin 已经准备好加入 Apache 项目家族的行列。所以,我建议 Gobblin 转型为 Apache 孵化器项目。使人振奋的是,咱们的提案获得了孵化器项目委员会(简称 PMC)的一致承认,并于 2017 年 2 月开始了咱们的孵化项目转型旅程。自此以来,咱们完成了必要的内部转型流程并贡献了相关代码,并正式开始 Apache 旗下的发展道路。大数据

为什么选择 Apache?网站

Apache 软件基金会(简称 ASF)为目前全球最具影响力的开源机构之一。Apache 项目支持着超过 2 亿个网站(占互联网网站总数的一半),并成为世界上众多最具价值企业的(技术)支柱。Gobblin 已经陆续获得 LinkedIn、苹果、Paypal 等企业以及 CERN、Sandia 国家实验室等研究机构的普遍采用,咱们相信其做为 Apache 项目将继续维持稳定的运做与持久能力,并容许不断发展的技术社区在“Apache 道路”上继续为其添砖加瓦。翻译

Gobblin 将来展望blog

自咱们发布上一篇博文以来,Gobblin 在内部与外部社区贡献的共同推进下迎来了一系列重大变化。下面,咱们将概述这一阶段中 Gobblin 中出现的使人兴奋的加强功能:生命周期

  • 多执行模式: Gobblin 如今可以以 Embedded、CLI、Standalone、Mapreduce 以及 Cluster(裸机、AWS 以及 Yarn)模式运行。
  • 流与批量处理支持: Gobblin 的核心引擎如今支持批量(有限)以及流(无限)数据处理能力。在批量处理模式下,咱们已经可以配合独立、集群、Map-Reduce、Hive 以及 Dali 实现运做,并计划在今年以内实现对 Spark 的支持。一样的,咱们还将进一步扩展原生流功能,包括在今年以内对接 Samza 与 Brooklin 等系统。
  • 全局限制: Gobblin 如今支持在任意 Gobblin 执行模式下实现资源的全局限制(例如 API 配额)。这是一项通用性基础设施功能,适用于任何分布式系统。
  • Gobblin 即服务: 此举旨在构建起一套数据管理 PaaS(平台即服务)方案,可对服务背后的民间构数据移动及部署处理(不管是否基于 Gobblin)进行封装与统一化处理。

展望将来,咱们将致力于继续推进 Gobblin 项目的快速发展,同时帮助社区持续发展并适应“Apache 道路”。资源

自去年年初加入 Apache 孵化器计划以来,咱们已经在这方面迎来良好的进展势头。Apache Gobblin 社区成员在 Gobblin 生态系统当中提出、创建并启动了一系列关键性发展成果,具体包括:

  • Kafka 10 支持能力
  • 状态存储强化
  • AWS 模式加强与自动扩展能力
  • Mesos 支持提议
  • Gobblin 即服务加强提议
  • 多款新型链接器
  • 管理员 UI 稳定性与加强。

咱们还进一步邀请你们体验 Gobblin 并为该项目的 Apache 发展之旅贡献力量。

感兴趣的读者能够经过多种方式加入 Apache Gobblin 社区,包括贡献新功能、进行技术布道,或者帮助社区更新说明文档。请点击此处加入 Gobblin 的用户或开发者邮件列表。也能够点击此处访问 Gitter 频道。

AI 前线将来将密切关注 Apache Gobblin 的发展,若是你有关于 Apache Gobblin 的最新消息、使用介绍或实践经验想与更多人分享,请发送邮件至 natalie.cai@geekbang.org(请在邮件标题中备注【Apache Gobblin】),欢迎进一步交流。

原文连接:

engineering.linkedin.com/blog/2018/0…

更多干货内容,可关注AI前线,ID:ai-front,后台回复「AI」、「TF」、「大数据」可得到《AI前线》系列PDF迷你书和技能图谱。

相关文章
相关标签/搜索