做者 | 殷铭 颜铺科技架构师数据库
本文整理自架构师成长系列 3 月 19 日直播课程。 关注“阿里巴巴云原生”公众号,回复 “319”,便可获取对应直播回放连接及 PPT 下载连接。小程序
**导读:**颜铺科技因美业⽽⽣,“颜铺专家”是一款专为美业商家打造的 SaaS 平台,为了可以给商户提供更加安全、稳定、高效的平台,咱们在技术方面作了不少尝试,通过几回演进,使系统变得更加稳定可靠。今天主要和你们分享一下颜铺科技的架构演进,以及 Nacos 在颜铺的应用实践。后端
上图是咱们单体服务时的架构图,分为会员、订单、门店等不少模块,看架构图彷佛还算清晰,可是真正看到包结构的时候,真的使人头秃!改起代码特别头痛。单体服务带来的几个挑战:安全
**发布周期慢:**虽然当时业务量不算大,可是代码量很大,业务迭代牵一发而动全身,每次发布须要对整个服务进行从新编译打包部署。特别是最开始在没有构建工具的时候,发布过程须要一堆的命令,总有一种 **“一顿操做猛如虎,定睛一看原地杵” **的感受。性能优化
**协同效率低:**合并冲突多,有时你在前面开心地写代码,而别人在解决冲突时,可能也在开心地删着你的代码,增长了不少的沟通成本。服务器
**稳定性差:**当服务出现故障时,可能会致使整个系统不可用,而且系统不易扩容,当商户搞促销时,可能活动结束了,服务器尚未扩容完成。网络
**性能差:**由于在单体服务内,有些开发人员为了知足本身的业务,不少无关业务间 SQL 联表查询,而且不关注性能问题,致使线上时常出现负载警告。 架构
另外,咱们在业务上也遇到了一些挑战:app
**业务转型: **2018 年 6 月,咱们公司决定从泛行业转向美业,须要打造一个专为美业商户提供技术支持的丽人 SaaS 平台。框架
**快速占领市场:**业务的转型带来了更多商户的新需求,若是不能快速迭代,则意味着被市场淘汰。所以,提高开发效率,快速占领市场成为咱们急需解决的问题。
**商户体验差:**随着愈来愈多的商户入住,性能和可靠性的问题逐渐显现,出现问题,不能及时修正,商户体验变得不好,违背咱们客户第一的原则。
综上所述,咱们认为进行服务化改造刻不容缓。
通过公司开发同窗们的讨论,咱们最终决定分两步进行改造: 服务化改造 1.0 的目标:
服务化改造 2.0 的目标:初步建设业务中台,让平台的各类能力可以快速复用、快速组合,支持业务更快捷地探索与发展。 服务化改造 1.0 预期效果:
所以,咱们的想法是:新商户中心直接调用旧商户中心经过 Controller 暴露出的接口,进行远程调用,因而咱们决定尝试使用 Spring Cloud 。
服务发现选型:
服务化改造 1.0 架构图:
服务化 1.0 咱们的技术改造方案是:将旧的商户中心注册到 Consul 上面,新商户中心到 Consul 上获取服务器列表,经过 Feign 进行远程调用,打通了新老商户中心的功能。
通过服务化 1.0 的改造,咱们解决了以下几个问题:
但服务化 1.0 改造后,仍是有一些挑战没有解决:
因而咱们决定开启,服务化 2.0 的改造。 服务化改造 2.0 的预期效果:
首先,注册中心我认为应该具有的基本功能 :
Zookeeper :
Nacos :
在此期间,咱们也关注到了 Spring Cloud Alibaba。阿里巴巴技术经受多年“双十一”的考验,其性能和稳定性是值得信任的。Spring Cloud Alibaba 的组件开源社区活跃度很高,而且比起国外开源项目更容易交流。其组件由 Java 语言开发,对咱们来讲更易维护,在出现问题时可以更快地定位问题进行修复。并且与阿里云配合,更加容易上云,好比 Nacos 能够与阿里云的 MSE 和 ACM 配合,将注册中心及配置管理所有上云。
所以,咱们决定拥抱阿里技术栈。
服务化改造2.0架构图:
咱们将以前的模块直接抽到基础服务之中,新增了 会员、订单、门店 等服务做为Provider,暴露本身的Service,并注册到 Nacos 上。新商户中心服务作美业业务逻辑的处理,旧商户中心服务作泛行业的业务处理,C端服务同理对外提供服务。经过 Dubbo 进行远程调用。
经过服务化 2.0 的改造,效果以下:
Nacos 在咱们公司处理作注册中心以外,配置管理也对咱们提供了很好的服务。下面说一下,Nacos 咱们的使用状况,以及咱们遇到的问题。
首先是使用状况:
Nacos 注册中心:
Nacos 配置管理:
每一个服务设置独立的 Namespace 。
问题描述:
2019 年 12 月 31 日,下午 3 点 15 分左右,线上忽然出现大量服务告警,Dubbo 服务出现报错,整个过程持续约 3 多分钟。各个业务组当天均没有任何发布,数据库状态也良好。
经过日志发现,报错缘由是门店服务没法调用。而门店服务日志,出现问题的时间段内,没有任何的调用记录。系统恢复正常时,出现了不少服务注册的通知。
所以,咱们将问题瞄准了 Nacos。查看 Nacos 的日志发现,在系统恢复过程当中,有大量的服务正在上线。
就在排查的过程当中,线上忽然又出现了以前相同的告警,Nacos 上的服务列表开始大量变成不健康的状态,因而咱们紧急重启了线上的 Nacos ,在这期间又经历了一个 3 分多钟的惊魂后,再次恢复了平静。
问题分析:
综上,咱们开始怀疑是网络缘由形成的。
问题确认:
通过排查,发现咱们的服务大多部署在 阿里云华东 1 可用区 B ,只有门店服务和 Nacos 集群没有部署在可用区 B ,说明这段时间可用区 B 与其余区之间的发生了网络隔离。
因而,咱们在可用区 B 紧急部署了门店服务,以后没有再出现问题。
通过与阿里云的沟通确认于北京时间 2019 年 12 月 31 日 14:05 分左右开始,部分用户反馈阿里云华东 1 地域可用区 B 部分网络出现异常,影响部分云资源访问。
问题复盘:
问题思考:
回顾与展望:
“颜铺专家”通过不断地快速迭代,帮助美业商家⾼效快捷地管理门店,进行经营数据分析,数据化管理门店,建⽴完善的会员周期管理体系,为美业商家在经营管理中,提供⼀体化的解决方案,将美业传统的门店经营模式进⾏互联网升级。截止到目前咱们累计服务 3000 多个品牌,1.1W + 个⻔店。咱们提供了店务管理系统、会员管理系统、营销拓客系统、大数据决策系统、供应链管理系统、员工绩效管理系统6⼤系统能力,同时⽀持 PC 端、手机 APP 、 pos 机、 iPad 操做,满⾜⻔店多端操做需求,覆盖⻔店经营管理中的全部场景需求。
提高系统高可用
**Seata :**目前咱们公司的分布式事务主要依赖 MQ 的补偿,今年准备引入 Seata 来完善分布式事务,保证数据一致性,减小开发修数据的状况;
**Sentinel :**目前 Sentinel 咱们只是在商户作活动时启用,所以咱们要配置出适用于咱们公司的最佳实践,保证系统的高可用;
**全链路跟踪:**咱们公司如今定位问题主要靠日志和告警,作不到全链路的跟踪,因此咱们要把这部分作好,作到故障快速定位,各调用环节性能分析,以及数据分析;
**异地容灾:**随着来自全国各省的商户愈来愈多,咱们须要对商户的数据保障,避免数据丢失,确保服务的可靠性。
社区回馈
由于咱们的公司体量如今不大,咱们可以作到的是尽量地使用最新的版本,及时尝试新特性,对发现的问题提 issues,但咱们也但愿可以对 Nacos 开源社区尽一份咱们的力量。
**做者信息:**殷铭,颜铺科技架构师,负责颜铺 SAAS 平台中间件的应用和实践,主导了平台架构在颜铺向分布式演进的全过程,目前也负责大数据在颜铺平台的实践和落地。
“阿里巴巴云原生关注微服务、Serverless、容器、Service Mesh 等技术领域、聚焦云原生流行技术趋势、云原生大规模的落地实践,作最懂云原生开发者的公众号。”