宜信开源|详解PaaS平台LAIN的功能和架构

【技术沙龙002期】数据中台:宜信敏捷数据中台建设实践|宜信技术沙龙 将于5月23日晚8点线上直播,点击报名mysql

LAIN是宜信公司大数据创新中心开发的开源PaaS平台。在金融的场景下,LAIN 是为解放各个团队和业务线的生产力而设计的一个云平台。LAIN 为宜信大数据创新中心各个团队提供了统一的测试和生产环境,简化了服务的部署与上线流程,也下降了运维人员对系统管理的复杂度。nginx

1、设计理念及解决问题

LAIN 规范了一个应用的开发、测试、上线工做流,提供了为应用作的容器编排、权限控制、SDN、流量管理、监控报警、备份、日志等 devops 问题的总体解决方案。git

在 LAIN 上,应用是一个基本的概念,某个应用的开发者只须要定义一个 lain.yaml 便可定义应用的编译和运行方式,对应用代码侵入性很低。LAIN 基于容器技术,面向多样化的技术栈,而且自然隔离系统和应用的依赖。github

当 LAIN 用户建立一个应用(服务)时,能够到 LAIN 上注册该应用,当前的用户自动成为了该应用的维护者,拥有了进一步操做该应用的权限。构建应用的环境须要 docker 和 lain 命令行工具,为了方便,咱们建立了一个 vagrant box 即 lain-box. 在构建应用时,除了工程代码外,还须要一个 Docker 镜像做为基础镜像,即编译的环境。若是是二进制的工程,如 golang,则能够在运行时换掉一个底,不然会使用 build 镜像为 release 镜像。准备好镜像和编译/运行的脚本后,就能够编辑 lain.yaml 了。golang

具体来讲,LAIN 解决了如下四个问题:web

一、应用开发之下的devops问题的总体解决方案

常见问题redis

  • 面对用户的应用级开发仅仅是冰山一角,在此之下有机房、网络、服务器、系统管理、运维管理、监控、告警、日志等等一系列背后的工做,而这部份的工做可能比应用级开发还要复杂
  • 采用IaaS解决了服务器采购和上架问题,可是依然须要一个强大的devops团队来负责上述事务,不然基础设施很容易成为发展瓶颈,且越拖越难解决
  • 上面的这些工做对于每个产品可能都是同质化但又伴随着定制,会消耗大量的时间作这些重复的工做

Lain是怎么作的sql

  • 直接在几乎裸的IaaS或者服务器上便可构建lain集群,方便地进行在线的扩容缩容等集群底层资源操做
  • 整合了业界沉淀下来的良好的运维总体实践,提供了冰山下的这一大块工做的总体解决方案
  • 将纷繁复杂的系统管理和运维管理行为封装为更简单易用的工具包,极大简化大部分的系统工做,下降平常维护的技术门槛和人力需求
  • 将同质化的工做整合在一块儿,避免重复劳动
  • 开箱即用的各类管理组件,囊括了部署,扩容,监控,告警,日志等方方面面。还有附赠应用,包括mysql,redis的集群服务

二、规范了应用开发的工做流程,并辅以适当的SCM支援

常见问题docker

  • 在我的开发者以及startup组织中,良好的工做流这件事几乎是不会被说起的,然而在日渐发展的过程当中遗留的技术债务却会愈来愈多的影响开发部署的效率和质量
  • 设计、开发和部署行为的不规范会引起各类问题

Lain是怎么作的编程

  • 提供本地开发环境的解决方案
  • 提供本地开发过程的SDK / CLI工具链,使得开发和构建过程是嵌入在解决方案中的
  • 隐性的提供了SCM支援,约束了开发者的开发和发布行为

三、提升总体资源利用率,优化冗余资源池

常见问题

  • 传统的按照产品线规划资源池的状况下,会给各产品预留专属的资源池以及配备冗余,以便进行灾备以及服务突发流量
  • 然而各产品线的资源需求类型不一样,冗余类型也不一样,没法共通共享,形成众多的重复冗余,资源利用率比较低
  • 经过服务器资源的冗余,扩容缩容,以及资源迁移的操做比较复杂,时间消耗大,风险高

Lain是怎么作的

  • 经过容器技术的资源隔离和控制,实现多种技术栈多种应用在集群内安全的不相互影响的混合部署,经过统一的资源池进行冗余,有效提升资源利用率
  • 容器技术的运用使得对下资源的使用造成彻底统一的形式,扩容缩容以及迁移的成本很低,操做也更简单。

四、TBD:架构上提供了服务治理的可能性和解决方案

2、特征

在应用的层面上,LAIN 还有如下特征:

一、基于配置文件定义应用

  • 在现有的应用上只须要增长一个配置文件lain.yaml便可定义应用在lain集群里的编译和运行
  • 对应用代码的侵入性很低

二、SDN网络安全隔离

  • 使用开源的calico(github.com/projectcali…)项目构建SDN网络
  • 高效率的应用内网络互通
  • 应用间网络默认隔离
  • 显式声明应用间的服务互访

三、基于容器技术支持多样化的技术栈

  • 使用开源的docker项目构建容器云
  • 扩展封装Dockerfile,使用自定义的yaml格式进行应用的集群定义
  • 只需符合最简单的lain cluster runtime interface,可自由选择base image
  • 容器技术自然的支持隔离系统和应用的依赖
    • lain SDK / CLI以及可选的ci组件支援代码版本和镜像之间的对应关系
    • 编译时和运行时镜像都可彻底定制和隔离

四、应用在线扩容缩容

  • 使用开源的swarm调度应用部署
  • 深度封装swarm docker API,自行开发集群控制器(deployd)以及应用控制器(console)
    • 直接支持用户API调用进行容器实例数扩容,缩容
    • 直接支持用户API调用进行容器单实例资源的扩容,缩容(CPU,MEM)

五、节点在线扩容缩容

  • 使用开源的ansible(github.com/ansible/ans…)开发集群管理运维工具包
  • 集群的服务器节点(NODE)兼容同一个C段内的物理服务器,虚拟机,公有云服务器
  • 集群管理工具包支持add NODE 和 remove NODE 指令,快速进行底层资源扩容和缩容

六、服务自动维持和灾难恢复

  • 自行开发集群控制器(deployd)
    • 容器实例级别的服务巡检和维持,自动迁移和服务恢复
    • 基于虚ip自动漂移的入口load balancer HA
    • 高级API支持服务定制迁移

七、内部服务依赖和发现机制

  • 集群支援Service / Resource 机制
    • 集群总体的服务应用
    • 应用私有Service (即 Resource)服务应用
  • 集群支援特别的服务应用类型和资源应用类型
  • 在lain.yaml中显式声明使用的Service / Resource
    • 基于DNS的服务发现机制
    • 可编程的service/resource load balancer
    • 默认提供可用的RoundRobin类型的load balancer

八、统一认证

  • 集群自行开发统一认证组件(sso)
  • 支持oauth2的多种认证方式

九、虚ip和负载均衡器统一管理

  • 支援 virtual ip 和 应用 proc 的注册,应用可注册 virtual ip 来进行对外服务
  • 基于etcd lock机制的virtual ip 漂移机制,应用 load balancer 可借此实现 HA

十、web load balancer的自动配置

  • 使用开源的nginx和tengine(github.com/alibaba/ten…)封装web服务的负载均衡器
  • 自研的watcher检测集群应用的总体 runtime 数据,自动为 web 服务生成配置
    • 获取runtime变化的时间,判断是否须要进行配置变动
    • 配置变动事件出发配置的渲染
    • 触发 reload 生效

十一、集群体系化的日志收集

  • 使用开源的 heka(github.com/mozilla-ser…)配合docker的配置以及rsyslog封装集群总体日志收集
  • 默认收集应用的stdout / stderr日志收集
  • 支援应用显式声明须要收集的落地文件日志
  • 支援应用显式声明结构化的监控数据日志
  • 定制检测web服务load balancer的nginx日志收集和数据统计

十二、私有docker registry以及认证机制

  • 使用开源的docker registry封装私有 registry 应用
  • 集成支援集群的私有统一认证机制
  • 定制支援可选的moosefs存储后端或者Ceph存储后端

1三、应用配置加密存储

  • 使用开源的库封装的应用私有配置加密存储组件
  • 集成sso组件实现用户管理和权限隔离
  • 在应用运行时阶段将配置注入

1四、本地化开发环境

  • 使用开源的vagrant,免费的centos和virtualbox组织统一的本地化开发环境
  • 甚至支援本地使用上述工具链bootstrap出一个lain本地集群

1五、应用部署运维API以及相应的CLI客户端

  • 应用的构建,发布,部署,运维都由集群的各组件提供API
  • 使用lain SDK / CLI再次封装上述API,给用户提供良好的操做界面
  • 集成集群的统一认证,进行用户管理和权限隔离

1六、集群管理CLI

  • 使用开源的ansible开发集群管理运维工具包
  • 再次封装ansible调用为简单的CLI使得操做更方便,包括增长节点,移除节点,迁移应用,集群健康检查等。

1七、规范化的开发workflow

  • 基于上述组件,以代码 - 镜像的一一对应关系进行SCM,对镜像进行发布管理
  • 使用lain SDK / CLI以及可选的ci组件进行本地开发,构建发布,会很天然的规范开发workflow
  • 工做流运转的核心单位是镜像,lain cli封装了镜像的生成,更新,推送,部署,运维

1八、可选的集群体系化的备份和恢复(backupd + moosefs)

  • 采用开源的moosefs做为分布式存储后端
  • 支援在lain.yaml中显式声明volume备份需求和策略,以及设定备份策略的hooks
  • 支援指定备份恢复

1九、可选的集群日志查询组件(kafka + elasticsearch + kibana)

  • 采用开源的kakfa ,elasticsearch,kibana搭建外部依赖的卡夫卡集群和elasticsearch集群,封装集群可选组件libana
  • rebellion集群日志收集组件支援发送全部日志到上述外部依赖kafka
  • 在libana上支援对集群应用日志和web load balancer 日志的条件组合查询

20、可选的系列预置应用

3、系统架构

一、物理视图

从物理层面看,每个 lain 集群是由一个或多个网络互通的节点(Node)构成的。

每一个节点能够被赋予不一样的 label ,供容器调度时进行节点选择使用。 目前的实现中,须要全部节点位于同一个路由器后。

二、逻辑视图

从逻辑层面看,一个 lain 集群是由多个应用组成,应用和应用之间网络相互隔离(经过SDN技术)。

每个应用是由多个 Docker 容器组成,每一个容器均可能运行在不一样的节点上。

应用开发者能够在一个应用中定义多种容器(称为 proc),每一个 proc 能够指定为在集群上运行多份,每份即为一个容器,被称为 proc instance 。Lain 集群会尽量保证有指定份数的容器在运行,若是有容器 crash 或者节点 fail 的状况发生,集群会试图重启容器或者在节点间迁移容器。

三、系统架构设计图

目标是作成一层一层能够深刻的架构图

总图

节点

四、工做流程

GitHub地址github.com/laincloud

白皮书laincloud.gitbooks.io/white-paper…

做者:宜信大数据创新中心LAIN团队

来源:宜信技术学院

相关文章
相关标签/搜索