数据,是互联网公司的核心资产之一。那么,这些核心资产背后,是哪些人在收集数据、存储数据、处理数据、管理数据、使用数据、保证数据安全的呢?——是“数据工匠”们!web
2020年7月28日~8月6日,云+社区(腾讯云官方开发者社区)主办的线上技术沙龙——数据工匠,已圆满落幕。10位技术大咖现身分享,与开发者互动交流,深度讲解了有赞技术中台、腾讯云Elasticsearch、数据安全中台、ClickHouse、腾讯云数据库MySQL 8.0、云原生消息队列、数据库自治服务等多个专题。另有三位嘉宾同台,就“如何成为优秀架构师”这一开放命题,展开多维探讨。算法
随着直播电商行业的兴盛,有赞业务高速发展。但同时数据仓库中存储资源和计算资源消耗也很是高,甚至一度超过了整个平台业务的增速,这显然不是一个可持续发展的态势。数据库
有赞技术副总裁沈淦首先带咱们一块儿回顾了去年有赞业务高速发展时遇到的困境,并向你们分享了他们在数据中台成本治理上的实践。编程
针对原数据中台资源水位低、扩缩容成本高、存储瓶颈、离线计算浪费、成员缺乏成本意识等问题,有赞从五个方面出发进行了成本的综合治理。安全
首先是制定利用率标准,确认利用率在什么水位是合理的,根据不一样的集群和环境来设定不一样的水位。其次根据水位来决定缩容或者降配,充分利用机器资源。接着对机型进行优化,统一集群机型。最后是延时启动,削峰填谷,任务分级,避免在高峰期争抢资源,在空闲时间作数据重刷。性能优化
容器化在不少方面会提供很是好的支撑,首先在扩缩容方面。有赞和腾讯云合做,把采购的 API 打通,这样就能够经过调度策略来进行扩缩容,比之前按月的采购方式效率更高、成本更低。另外经过容器化,也能够很方便的实现存储与计算分离。服务器
冷备数据分离,存储到腾讯云COS上,比起独立集群存储,节省80%的成本。启用Hive数据生命周期管理,90%以上的分区表,能够作历史分区清理,节省20%以上的存储空间。同时优化存储压缩倍率,依据 hadoop3.x 版本 EC编码特征,3备份仅须要 1.5倍的空间。网络
从数据下线、任务调优、高转低频、数据替换、小文件合并、延迟启动这六个方面对离线任务进行优化,有赞团队形象称之为“六脉神剑”。session
针对团队成员资源使用大手大脚、缺少成本意识等问题,有赞技术团队创新了成本运营机制。创建成本量化模型,对于不一样资源设立不一样的成本单价,经过Spark架构
采集计算资源和运营宣导等方式,让团队每一个成员切实感觉到资源的损耗,下意识开始增强成本意识。
通过此番成本治理实践,有赞数据中台无论是在总体资源的利用率仍是计算性能上都有很大的提高,同时极大下降了存储成本,帮助团队成员提高了成本意识,自主降本比例超过了25%,取得了积极的进展。
为了帮助腾讯会议质量团队快速精准地定位分析问题,须要大量运行时的会议质量数据支撑,如网络相关的入网类型、码率、丢包率等。另外一方面,借助多维分析,能够在实时数据中挖掘出异常状况,经过dashboard或数据报表的形式,帮助会议质量团队及时掌控全局状况,快速发现潜在问题。
可是随着腾讯会议用户激增,在高压力、高吞吐的环境下,基于ES的会议服务质量分析系统承受了极大的压力,而且写入性能出现了不足......腾讯云Elasticsearch技术专家张彬面向广大在线听众,分享了他们在腾讯会议服务质量分析系统上的优化实践。
针对高并发场景的优化方案是服务限流。除了要能控制并发请求数量,还要能精准地控制内存资源,由于内存资源不足是主要的矛盾。另外通用性要强,能做用于各个层级实现全链限流。
具体是基于内存资源的漏桶策略,将节点 JVM 内存做为漏桶的资源,当内存资源足够的时候,请求能够正常处理;当内存使用量到达必定阈值的时候分区间阶梯式平滑限流。以下图中浅黄色的区间限制写入,深黄色的区间限制查询,底部红色部分做为预留 buffer,预留给处理中的请求、merge 等操做,以保证节点内存的安全性。
除此以外,腾讯云ES还在大聚合查询、多可用区部署、数据合并策略以及大吞吐写入方面,结合原生方案和社区调研,作出了独具一格的优化。除了在高可用和性能方面的调优,腾讯云ES在低成本解决方案上也给出了本身的答卷。
腾讯云自身的监控系统也是ES 作的,对于一些特别大的地域集群,写入速度高达千万级每秒,须要承担1500台物理机的成本预算。经过冷热分离、生命周期管理、多盘策略、COS冷备等方式,极大下降了存储成本,本来须要1500台机器才能完成的工做优化后仅须要两三百台。
随着企业上云和数字化转型升级的深化,数据正在成为企业的核心资产之一,在生产过程当中发挥的价值愈来愈大。腾讯安全云鼎实验室专家姬生利在直播间为你们细数了企业数据安全风险以及国内密码应用现状,除了业务上的安全挑战,还有安全合规方面的要求。
企业数据安全面临着诸多难题:
从数据安全生命周期来看,有着分类、治理和策略方面的难点;从开发运营过程当中来看,数据有容易泄露的风险,好比开发意识疏忽,泄露源代码中包含的敏感凭据和密钥、测试暴露高风险的测试数据库访问端口和弱帐号等。测试:暴露高风险的测试数据库访问端口和弱帐号等。
从应用服务的构成来看,数据从产生、传输、存储、处理,到共享展现,每个环节都存在数据泄露的风险,涉及数据安全保障:
本地敏感数据存储安全、网络通道的安全、配置文件和硬编码敏感信息的安全、密钥的安全管理、云上数据的存储安全、金融支付等敏感应用的安全合规问题、数据的共享、展现脱敏的问题等。此外,云架构下数据加密及密钥管理也面临多种挑战。
腾讯云数据安全中台具有三大能力,全数据生命周期支持、完整的云产品生态集成、国密与 FIPS 标准的支持。腾讯云数据安全中台还能提供极简的加密 API 和 SDK 服务,让用户得以使用最小的工做量,极简地实现对云上数据的加密保护。
对于云上数据安全应用方案,须要保管的核心内容就是密钥,密钥存放在硬编码配置文件里面,是写在代码里面的,这种状况下配置文件泄漏或者代码泄漏,密钥也会随之泄漏,密钥的丢失致使数据的密文再也不安全,所以使用加密算法须要使用密钥管理系统(KMS)来对密钥进行统一管理。
KMS是云平台和产品合规的基础安全组件,海外用户须要知足FIPS-140-2标准,国内用户须要支持国密。KMS能为用户提供安全合规的密钥保障、敏感数据加密、高性能本地数据加密等能力,支持BYOK、白盒密钥管理,还能无缝集成云产品,实现云上数据透明加密。
除了KMS以外,腾讯云数据安全中台还集成了凭据管理系统、云加密机、数据库加密等能力,为用户的数据安全保驾护航。
ClickHouse是俄罗斯开源的OLAP数据库,以彪悍的性能著称。开源5年以来,以性能优异、简单易用的特色,吸引了大量的用户群体。腾讯云ClickHouse研发负责人彭健为你们带来腾讯云ClickHouse在QQ音乐上的应用与调优实践。
QQ音乐用的就是ClickHouse集群,集群的现状是近万核的规模、PB 级的存储,十万亿级别的记录量,天天过千亿级的数据入库,包括实时流水、中间表的计算等等。
经过使用ClickHouse,一方面带来了实时性上的价值,绝大部分查询请求是数秒内完成、部分查询请求在十秒内完成。另外一方面是易用性,利用 Superset 能够自主制做各类报表,下降了产品、运营、市场等非数据人员分析使用的门槛。
ClickHouse 集群数据量的增加,在并发写入量较大的状况下,ZooKeeper 的处理能力跟不上,集群的性能也会急剧降低。因此在整个运维过程当中,若是集群数据规模超过 TB 级别,建议采用具备 SSD 盘的设备。
ClickHouse 的集群是按 Shard 分布的,在向 ClickHouse 导入数据的过程当中有时会失败或者超时,就须要重试写入动做。为了防止多个 Shard 出现重复写入,致使数据不一致的状况,在重试的时候须要在相同的 Shard 上进行写入。
一般能够将数据按天、按月作分区,根据具体状况来操做。官方建议分区数量不要超过一千,一般这个分区数对大部分业务场景都够用,过多分区数量会致使查询性能的下降。
借助临时集群,预先将准备好的数据在临时集群中构建、写入,等待 Merge 完成后 AB 切换,或者经过数据拷贝的方式将数据复制到在线集群的服务器上,作到读写分离。从而让数据的写入不会影响线上的查询,或者是把影响降到最低。
ClickHouse 集群分布式查询一般采用 GLOBAL IN/GLOBAL JOINS 相似的词语,这些词句的性能相对比较低,使用后再查询时会生成临时表,并跨节点读取数据,从而下降查询速度,也会占用更多的内存,甚至致使查询失败。
经过合理组织数据,使用本地化的 IN/JOINS 代替,好比根据数据的 UN、VID 将相同 ID 的数据写入到相同的 Shard 中,结果是等效的,但能够极大的提高性能,将复杂的操做编程定型化的操做。
除此之外,彭健还对ClickHouse常见的实时分析场景进行了分析,为你们细致剖析了ClickHouse的原理,以及腾讯云ClickHouse是如何在原生的基础上作出优化的。不久的将来,更加完善、性能也更高的腾讯云ClickHouse服务也将会上线提供服务,敬请你们期待。
“腾讯云数据库 MySQL 8.0版本于2020年7月正式发布,QPS达到70w+。腾讯云基于官方8.0版本新增什么特性和功能,这些新能力能为你们带来哪些实际的价值和帮助?”,直播间里,腾讯云数据库产品专家黄稚禹为你们作出了细致的解析。
腾讯MySQL 8.0 新推出了八大特性:数据加密、SQL审计、线程池、强一致性、新硬件支持、轻量级AP、热点更新、SQL限流。
MySQL 开源社区版是不支持企业级审计功能的,只有商业版里才提供。而腾讯云 MySQL 8.0实现了内核级别的审计功能,而且结合了云产品进一步提高了 SQL 审计功能,让用户拥有更好的体验。
用户链接 session 产生的审计记录,由专门的写盘线程( Flush thread )将内存中的审计记录写入审计文件中( Audit File ),直接落盘。而审计代理( Audit Agent )则会读取审计文件,将审计记录发送到审计日志中心。
同时采用 JSON 格式对审计日志进行存储。记录的审计内容有时间戳、影响行数、执行时间、主机、来源IP、实例名、用户名、数据库名,包括具体的 SQL 语句和类型等。在产品层面上也提供了审计规则的过滤。
针对互联网高并发业务场景,腾讯云 MySQL 8.0 进行了线程模式的改进。当客户端发起链接后,由空闲的线程先对请求进行处理,减小上下文切换的消耗和建立销毁的消耗。同时引入了多队列的机制,能够按照业务的访问走不一样的队列。
在数据加密方面,经过 KMS和 TDE 的深度集成,实现了两者的结合,为腾讯云 MySQL 用户提供了一整套安全解决方案。
KMS 采用的是两层密钥体系,海量的业务数据在存储或通讯过程当中使用数据密钥以对称加密的方式加密,而数据密钥又经过用户主密钥采用非对称加密方式加密保护。经过两层密钥体系,确保数据在在内存和文件中都进行加密。
在直播的最后,黄稚禹为你们分享了腾讯MySQL 8.0 在电商、游戏、金融、新零售这四大行业里的应用,也和你们畅想一番他对数据库将来的发展趋势见解。
云原生场景,多语言、多种协议兼容,任意多的消息 Topic、任意多的消费者,性能的按需快速扩展成为消息队列基本的要求。而在金融场景下,对交易数据的强一致性、跨地域数据高可用性、系统的性能方面都有着极高的要求。
腾讯TEG技术委员会专家工程师刘德志为你们分享了基于 Apache Pulsar 的新一代存储计算分离设计的消息队列 TDMQ在腾讯计费上的技术实践。
腾讯计费是孵化于支撑腾讯内部业务千亿级营收的互联网计费平台,其核心是帮助用户与产品,安全、便捷的完成支付和收款。平台承载了腾讯公司天天数亿收入的大盘,为 180+ 个国家(地区)、100W+ 计算商户提供服务,托管帐户总量 300 多亿,是一个全方位一站式计费平台。
TDMQ 是基于 Pulsar 内核,一样采用了计算和存储分离的 2 层架构:
Broker 提供消息的生产、发送和管理服务,自己并不存储任何状态信息和消息内容。Bookie 提供存储层服务,采用逻辑分片存储模式,也就是 Ledger,一个 Topic 其实是一个Ledgers 流,Ledger里面存储了具体的消息也就是 entry。
基于存储分离的架构,能够很友好的支持系统的扩缩容。若是是计算层资源不足,能够很是方便的进行 Broker 扩容,同时 Broker 也能够用相对比较廉价的机器来支撑。若是是存储层资源不足,添加 bk 节点也是很是简单的,新加的机器会在后续的 Ledger 写入使用,基本不须要额外的数据迁移动做。
随着业务的发展,异地多活成为必然选择。TDMQ 提供两种跨城容灾模式:跨地域异步复制、跨地域同步复制。
对于跨地域异步复制,TDMQ 的 geo-repilcation能够实现跨地域复制的能力,经过一些配置化手段实现多中心的数据同步,减小了业务的负担。
对于跨地域异步复制, 因为TDMQ 采用计算存储分离的架构,存储是 bookie 集群组成,Broker 在写消息时,首先会从 bookie 中选出一组 bookie 节点,选取的策略能够根据 bookie 部署的机架信息,由同城和跨城节点组成,其中机架信息能够经过配置进行指定。这样就能够保证副本是在多地存储,在等待ack策略上,能够根据机架信息保证等待异地的 ack 应答,能够实现真正意义上跨城容灾。
与此同时,在保障数据高一致方面,刘德志也为直播间的听众详细剖析了TDMQ 的一致性模型,在DB数据同步上也有不少创新的实践。目前TDMQ还处在腾讯云的内测阶段,主要应用于腾讯计费等场景下,将来也将开放到更多应用场景下使用。
腾讯云数据库高级产品经理刘迪为你们分享了腾讯云在数据库自治方面的最新实践。他先从数据库自治的演进开始讲起,为你们娓娓道来数据库运维各个发展阶段的面貌和特色。
从数据库技术诞生伊始,数据库运维经历了从石器时代、工具时代、专家时代,再到现在智能时代这四个阶段。从依靠纯手工运维到沉淀脚本和工具提高人工效率,再到出现统一的数据库自动化运维管理平台。
在云数据库时代,虽然能够便利使用云上的各类托管能力,可是上云以后也相应产生了黑盒现象。在资源评估、故障诊断恢复、数据库性能优化等方面对数据库运维同窗提出了新的挑战。
有没有一种技术可以将数据库能力和专家经验的共享,把以前已经积累好、沉淀好的数据库处理经验自动化,可以让数据库本身处理一些简单的问题,不须要人工干预。面对复杂问题的时候可以提供很是充足的建议,经过专家的干预进行最后的处理呢?数据库自治由此诞生。
通过多年的技术打磨,去年腾讯对外发布的一款强大的数据库自治产品 —— 数据库智能管家DBbrain。DBbrain 提供的自治服务涵盖三个方面:
利用机器学习、大数据手段快速复制资深数据库管理员的成熟经验,将大 量数据库问题的诊断优化工做自动化,服务于云上和云下企业。
提供从用户行为安全、SQL 安全到数据存储加密安全等多项数据安全服务, 公安部认证的等保合规性安全产品。
提供免安装、免运维、即开即用、多种数据库类型与多种环境统一的 web 数据库管理终端。
DBbrain 提供了宏观用户级别的监控和告警,让用户第一时间内可以发现故障、发现异常。监控页面的易读性很是高,用户不须要从几百个监控指标中找出哪一个有问题,DBbrain 会帮助用户筛选、聚合出相同问题触发的监控指标。
DBbrain还提供了7*24小时异常诊断、异常框架诊断、SQL优化、数据库审计与分析、数据库健康评估策略解读、自动性能优化系统 CDBTune等能力。同时提供基于 cost 的分析引擎,可以在用户没有执行优化建议以前就把优化的结果告诉你们,从而在优化前就能够清楚的看到预期的优化效果。
对于容易被运维同窗忽略的数据库安全防御问题,DBbrain 也提供了合规审计、安全治理、数据脱敏三大功能,为用户提供更稳定安全的数据库服务。
刘迪还结合了行业客户的案例为你们分享DBbrain在实际生产场景下的应用。谈到数据库自治的将来展望,刘迪表示:“数据库自治在将来应该会朝着自愈、自优化的方向发展,不只能自主调节索引建议,还能够自主建立索引,自动进行识别、添加和删除,而且在将来还应该能够自动对执行计划进行回归修正,优化策略下沉与引擎融合,让用户须要干预的愈来愈少,提供的优化服务愈来愈多”。
本期沙龙的压轴专场请来了三位大咖,云和恩墨首席架构师 & 腾讯云最具价值专家TVP盖国强、Elastic中文社区深圳负责人 & 腾讯云最具价值专家TVP杨振涛、腾讯数据库负责人丁奇,他们就「如何成为一名优秀数据工匠」这一话题延伸出发,展开了热烈的探讨。
三位大咖先从自身成长经历出发,表达了他们自身对数据工匠的感觉和理解,虽然在专长领域和成长经历上有所差异,可是源自相同的热带和坚持,他们最后也都达到了各自领域内的高点。
在谈到当前数据技术的发展示状和趋势这一话题时,盖国强老师首先谈了本身的见解。
他首先认为国产数据库必将崛起,由于分布式数据库已然成为趋势,加上中国拥有庞大的用户市场,因此国产数据库实现弯道超车得到领先优点不是没有可能;第二,云数据库成为新的潮流;第三,数据库自治也是大势所趋,数据库将来必定是会更加自动化和智能化。最后不禁感叹道:“很不幸,将来可能不太须要传统意义上的DBA了”。
对于延伸出来的这个话题,丁奇显然来了兴趣。他首先对国强老师的这一观点表示了认同,但同时也有新的理解。他认为将来DBA仍然还会存在,可是形态会发生改变。在数据库发展的早期阶段,DBA其实对业务有很强的主导性,由于他们了解数据库的业务架构。随着云化和自治化的发展,将DBA从基础的运维中解放出来,从新回到原始的价值层面,也即了解和主导业务架构。
对于数据库发展趋势的问题,杨振涛保持着朴素的观点,他认为数据库的发展暗含着合久必分,分久必合的态势。从最先期一个数据库搞定业务系统对数据的读写需求,到如今基于不一样业务对数据读取的差别化要求,采用多种产品组合。同时,不一样数据库产品也在不断演化,进入了百家争鸣的阶段。包括国产数据库的崛起,更加促进了这个数据时代的多元化。从系统论来讲,多元化越强系统蕴含的熵、进化的能力也是越大的。 若是市场上永远是三巨头,就可能不是一个很健康的发展趋势。
对于如何成为一名数据工匠这一话题,三位老师也给出了本身的答案。
盖国强结合本身20年来的工做学习经验,提炼出来8字真言:兴趣、勤奋、坚持、方法。兴趣是你克服苦难,坚持下去的源头;勤奋是要保持对自身的高要求,付出更多的时间精力来作这件事;坚持是不轻易调整方向,学透了某一点再拓展不迟;方法是要灵活借鉴他人的成功经验补足自身。坚持这四点,相信每一个人都能作出优秀的成绩。
丁奇也一样分享了他本身的观点,他认为学习数据技术最好从点到线,这样更能得到点滴的成就感,在阅读繁复浩大的技术图书或者手册的时候,应当先把骨架弄清楚,而后有针对性地学习。对于想要在数据技术更进一步的同窗,丁奇建议你们应该有意识的加强本身的成本意识、性能意识,以及安全意识。
杨振涛认为在成长为数据工匠的路上,咱们须要一直贯彻专业主义,对于认为正确的事情必定要坚决不移的作下去,专业度决定了你最终能走到哪一步。另外杨振涛也鼓励技术人员应该具备利他心理,多多分享本身的知识和经验。在成就他人的同时,每每也能完善自身知识体系,甚至还能收获新的认知,是一件很是值得投入的事情。
在直播的后半段,三位老师一样解答了直播间弹幕提出的诸多问题。
这次技术沙龙涵盖8场深受你们喜好的数据专题,邀请到10位行业一线大咖分享实践干货。沙龙活动期间不断收到来自直播间观众、技术社群中传递的热烈讨论和提问,收获了一片称赞。
正是源于一样的热爱,让咱们在这段时间相约在云+社区沙龙直播间,一齐成长进步。国内外数据技术突飞猛进,天天都在发生巨大的变革,但不管什么时代,先进的知识始终是优质生产力,坚持、热爱的开发者们永远是推进技术发展、维持技术生态繁荣的最根本因素。感谢国内的开发者,也感谢腾讯云云 + 社区能为广大开发者提供这样一个交流协做的平台。腾讯云愿积极拥抱开发者,愿与开发者携手一块儿,共建属于数据技术更先进的将来。