思否技术人访谈 | “匪气” CTO 易观郭大侠,追寻数据的灵魂之旅

稿定设计导出-20191224-181729.png

技术人:易观 CTO 郭炜
本文采编:SegmentFault COO 江波 Nadia算法

像找媳妇同样找人才,真情换真心

Nadia:能够简单介绍一下您此前的求学和职业经历吗?服务器

郭炜:我是北京人,高中毕业在北大读了七年书,直到研究生毕业。我从研究生阶段学的就是数据,那个时候还不叫数据挖掘,叫信息与信号处理,毕业论文题目是《过程神经网络的客户流失分析》,那个时候(2005 年)尚未 AI 人工智能。毕业后我去了 TereData,美国当时最大的数据仓库公司,后来去了 IBM、中金、万达、联想,都在聚焦大数据平台建设及项目应用的落地。仍是会感受在大公司在数据创新应用上的体系化管控流程更复杂,也受到了易观创始人于揚的感召,2016 年加入易观。微信

Nadia:2016 年易观是什么状态?好像那个时候我印象里的易观仍是一个作分析报告的公司?网络

郭炜:当时的易观其实已经开始经过数据产品为客户数据洞察赋能了,也开始建起了技术团队,可是整个团队能力其实还不够达标。甚至那个时候,市场上还不太理解技术背景到易观来作什么。因此,我中间有一个阶段,从新调整了技术团队,更加聚焦数据架构、算法等方向。架构

Nadia:你加入的时候,易观的商业模式是已经规划得很清晰了,仍是说也是摸着石头过河?并发

郭炜:那时候,易观的创始人于揚一直坚持要作产品和技术,但具体是哪一个产品,哪条产品线能作到什么程度咱们都不知道,可是咱们经过易观千帆(移动互联网产品对标分析平台)迈出了第一步。工具

Nadia:2016年加入易观以后都遇到了什么挑战?oop

郭炜:你们可能都看过 “创业曲线”, 一开始是特别快速的上升,而后断崖式下跌,在谷底沉寂一段时间后还要再跌一下才能慢慢曲线上升——其实创业经历都是这样的。学习

timg.jpg

我刚进入易观的时候,你们都很乐观,以为易观有品牌、有想法、有数据源,只是缺技术。我当时也很是乐观,以为仅仅是把技术弄起来,这个简单。但亲自去作时候才发现,咱们向技术公司升级的路上要过的山头真的很大,遇到的问题特别多。大数据

以前我其实已经不少年不写代码了,但那时候没办法,尤为一些核心的模块只能我本身上。2016 年,易观千帆可以承接分析的用户月活跃数据也有接近一个亿了,当时遇到一个很大的挑战就是数据接收并发的问题。在千帆刚开始服务客户的时候发生过一次比较严重的事故,整整 3 天,系统 down 在那里没数据。我印象特别深入,6 月份,CEO 找我谈话说“大家很辛苦,可是这个问题怎么解决呢?”当时我也不知道怎么解,后来没办法,我从新学了 Lua 语言,而后用了两天时间把代码从新写了一遍,问题解决了。这是当时的状态,整个技术团队对于技术与业务结合的理解其实都还不够,也是从那个时候我发现创业团队招人最重要,人才是核心

Nadia:创业团队很差招人吧?

郭炜:咱们开源项目 Dolphin Scheduler 的核心贡献者代立冬当时是我去找他吃了多少顿饭才说服他加入的。他是第一个大数据方向我以为不错的人才,也是从他开始,我开始像找媳妇同样找人才,到如今也是跟团队和人才们聚会的时间比陪家人的时间长得多。就像糟糠之妻,那个时候你什么都没有,经过真情换真心,把这个团队从没有到 1,到 3,5 个,到如今 100 多人慢慢成长起来。

Nadia:大家招人的时候会比较喜欢什么样的人才?

郭炜:我以为招人第一是看价值观,是否是真的想作数据这个事,谈到数据的时候,是否是眼睛会有亮光,会有光芒,这个很重要。第二个是看潜力,逻辑性、学习能力、阅读能力、沟通表达能力行不行?第三个才看究竟如今能力怎么样。

究竟会什么、会不会 Hadoop、懂不懂大数据这都不重要,若是你真的很想作这个事,很愿意去学,咱们就愿意给你这样的机会。不是每一个企业都有这么大的六个亿的月活数据让你去学习,也没有像招商银行、当当这样的客户可以让你去实践。

郭大侠的开源情怀,易观技术的变与不变

Nadia:2016 到 2019,您加入易观 3 年,帮助易观从一个大众认知里的分析报告公司,转型为一个产品技术驱动的大数据公司,技术上发生了哪些变化?

郭炜:变化真的蛮多的,下面的图片大概体现了易观从 2016 年到 2019 年的技术架构变迁。

微信截图_20191223172410.jpg

从产品上,2016-2017 年,咱们主要的产品仍是易观千帆、易观万像,它本质上是易观自有的大数据平台。到 2018 年的时候,咱们发现本身的大数据技术是能够帮助更多企业的,咱们开始作技术输出,开始有了易观方舟,今天已经成为了包含用户行为智能分析、智能运营及技术开放的智能用户运营产品套件。

咱们本身原来的东西特别庞大,6.8 个 PB,几百台服务器,不是每一个企业都用得了,因此在 2018 年咱们开始把这么复杂的大数据组件经过一个新的架构来精简,咱们但愿帮助企业方也都能用上好用的大数据平台。

这个新的架构叫 IOTA(Big Data IOTA),它的核心思路其实就是边缘计算——原先大数据都是将全部的数据存到云端去计算,但如今其实咱们的手机都愈来愈厉害了,因此个人思路是要经过边缘计算的方式,在手机端先作好一些计算,云端只作存储和查询,这样效率就大大提升了,当年好多的大数据集群的东西浓缩在一台服务器上就能够完成。

把咱们的本身的技术,经过新的架构迭代抽象成一个可以让用户去用的产品和技术(易观方舟),这其实就 2018 年咱们在作的事情。

到 2019 年咱们又发生了变化,在过去易观方舟只作用户行为分析,今天已经实现了智能运营功能,后来咱们发现不少用户但愿基于本身的需求去作一些二次开发。咱们把易观方舟 PaaS 化,从一个产品变成了一个平台。好比说你要作推荐,咱们把相关数据经过 SDK 全都收集上来了,把非结构化数据整理好变成告终构化数据,基于这些数据你本身的分析师就能够在里边作一些推荐引擎,用户画像等等。

2020 年,咱们会进一步把这个平台作得更稳定,但愿除了咱们以外,也能够有更多的开发者在上面开发一些东西。

Nadia:因此从明年开始,其实也会作一些开发者生态的事情?

郭炜:其实咱们今年也在作,易观方舟自己是一个商业产品,但其实咱们有免费版本。私有化、单机服务器的这个版本咱们把它免费了,叫易观方舟 Argo。在这个以前,国内如今尚未私有化部署的用户数据分析免费产品。私有化部署,数据放本身这里,用户放心。普通开发者能够直接把这个产品接入本身的后台,一台服务器,你就能够开始作用户行为分析。未来咱们但愿基于易观方舟 Argo,能够有各类各样的新的小东西开发出来,咱们鼓励你们开发各类新玩意儿,开发完之后你能够本身用,能够把它 Share 出来咱们帮你去售卖,也欢迎你基于咱们的产品开源,作开源组件让你们都去用,由于易观方舟 Argo 自己就是免费的。

Nadia:刚刚提到了 IOTA 架构能够实现更高效的数据处理速度,可否在具体应用层面为咱们解释一下它的价值?

郭炜:好比说拿 SegmentFault 举例,最近 SF 某一个渠道注册留存超过七天的用户在最近一周没有登陆,你想发邮件作一次召回。原先你须要提一个需求给技术,他须要跑个 SQL,SQL 跑不过可能还得跑 ETL 脚本,两三天才能给到你,公司需求多了之后或许还须要排期。但在基于 IOTA 架构的易观方舟里,你只须要勾选一些条件,不到三秒钟,这个数据立刻就出来了。

几秒内,可能咱们就要查 100 亿条数据,出一个结果,在技术上是很是难的。因此 IOTA 架构解决的核心问题是在大量数据中作一个复杂查询,秒级把这个数据查回来。那么随之而来的其实就是帮助咱们将数据能力平民化,让数据分析师以外的角色也能够用这个产品去作点数据分析,而不须要大数据工程师每天去给你写脚本。

Nadia:提到数据处理效率,您以前还曾提到过“数据河”(Data River)的概念?

郭炜:数据河实际上是 IOTA 抽象化的东西。过去云厂商常常提到“数据湖”——把数据所有装进去,它的好处是把它存下来了。但你真的想去用这个数据的时候成本就会愈来愈高,数据越放越多,慢慢就会变成数据沼泽。咱们作的实际上是让数据流动起来,经过 IOTA 这样的架构,数据是直接从产生端流向消费者,再也不通过数据湖,再也不须要工程师去写 ETL。

Nadia:那有什么是这三年一直坚持不变的?

郭炜:咱们有两个基本点是不变的,我把它称之为技术价值观——一是开源,二是云化

今年咱们的开源项目 Dolphin Scheduler 入选了 Apache 基金会,但它其实不是咱们第一个开源项目,咱们此前已经开源了不少个项目,这是咱们慢慢运营、拥抱开源的成果。

2.png

数据是有灵魂的,我将用今生去追寻

Nadia:如今不少公司都在谈本身是数据驱动,固然大部分都是假数据驱动,在大家的客户里面,有没有哪一个公司是大家认为他真的已经把数据应用到很是好的案例?

郭炜:在咱们客户里,有一家第一梯队的股份制城商行作得很是不错。其实即使是互联网公司,也不必定真的能把“数据驱动”这个词落下去。数据驱动是一个管理思惟,不是一个工具能搞定的事儿。

咱们见过这家银行用北极星指标(即全部员工都要关注的惟一关键指标),这个指标对招行来说是它的月活,他的营业员都要扛这个。使用的时候,咱们能感受到他们的 APP 确实好用,就是由于 APP 每一个的点击、每一个功能模块分栏目的流程,都是有明确分析路径的。这点不少互联网公司都作不到,它跟一个公司的管理阶段和成熟度是有关系的。

Nadia:大数据这几年一直是一个热词,你我的是如何去理解大数据的?展望一下将来,它背后真正的价值是什么?

郭炜:我有一个座右铭叫数据是有灵魂的,我将用今生去追寻。

从整个技术和行业来说,我以为是会愈来愈火的。由于人们经过各类各样数字化的手段,能把这个现实世界变成数字、信息和数据,再基于此去作相关的分析。

最先我作 BI 的时候,报表全都是内部 CRM 产生的。到后来你们拿 APP 的点击作分析,如今又有了人脸识别,线下动做的识别,声纹的识别……其实一我的在线下的全部行为都是能够采集到的,数据把这个世界自己数字化,那么怎么用起来呢?每个行业、不一样的赛道其实用法都不太同样,将来再加上 5G、IoT……可能你们在这会议室里面就跟黑客帝国同样,摆一个姿式、说一句话,这些服务就都到了,这些其实都是数据的应用。

对于大数据公司来说挑战还蛮大的,不少数据公司后来都变成项目型公司了,他们就没有办法去作更好的增加。2016 年先后,国内大概有十几家公司都在作易观千帆同类型的产品,如今作得好的只剩两家了。易观方舟如今可能还有不少的竞争者,在这个赛道里面未来可能也只会留下几家。 对于将来,易观仍是根据用户实际的需求去解决用户的问题,大数据不是一个特别容易作的赛道,每一个能坚持下来公司都值得尊敬。

CTO的匪气:管理不是两利相衡取其重,而是两害相较取其轻

Nadia:最后咱们来聊一聊创业这个话题,做为一个曾经一直在大平台的技术人,您是怎么看待创业的?

郭炜:创业自己九死一辈子,哪怕易观到如今其实依旧战战兢兢,由于其实不少时候你不知道什么是对的。创业是一件颇有挑战也颇有意思的事情,它的魅力和风险都来源于未知,你天天面临的状况都是未知的状况。

对于作技术小伙伴来说,我建议若是你尚未商业思惟就先不要创业。走到创业这条路上,你会发现技术实际上是创业的必要非充分条件。创业没有技术不行,光有技术也不行。由于在商业逻辑面前,你再厉害的技术,若是不能为用户提供价值也是伪技术。因此对技术小伙伴来说,商业思惟比技术能力更重要。其实不必定是技术大牛,可是你有商业思惟,会和人沟通,可能就能成为一个很好的技术创业者。

Nadia:你们都叫您“郭大侠”,为何说不少 CTO 身上必定要有匪气?

郭炜:讲一个具体的例子,不少时候你们都会以为管理决策是择优,其实大部分选择并非两利相衡取其重,而是两害相较取其轻——面前有两坨翔,一坨大一坨更大,你吃不吃?不吃马上翻一倍,早晚必须吃,那就必需要杀伐决断。

匪气在于,你可能根本看不清楚将来到底是什么样,这两个都不太好,但你必须果敢地选一个不那么差的,而后一边鼓励团队一边被各类 PK。你要把这个扛下来,而不是文绉绉地调研一下这个再看看那个。没时间让你看,就这么干了!

Nadia:因此这个其实多是不少技术人可否成为一个领导者挺关键的一点。

郭炜:对,由于技术人广泛很是客观,逻辑性很强,可是作 CTO 意味着你必须常常在很是没逻辑的时候拍一个你认为很差的方案。初级管理者可能体会尚未那么深,但高级管理者必定会体会到:世间没有那么容易的事情,全都是很难办的事,只是看你选哪个。

采访手记

今年9月底,我第一次在易观北京办公室见到了江湖人称“郭大侠”、易观的 CTO 郭炜。历经三个月,「SegmentFault 思否」技术人访谈栏目终于在新年之际上线了。而这三个月, 秒算引擎 2.0 升级上线,易观方舟 Argo 社区收获了来自用户的开放源代码,OpenTechnology 技术开放策略发布,易观快马加鞭奔向 2020。

数据行业是公认的集“脏活、累活、苦活”为一体,然而“入行”十九年,他身上却丝毫看不到疲倦的影子。热爱让他苦中做乐,两个小时聊天式的交流,从技术到创业,从我的经历到公司业务,他的真诚、严谨、热爱与侠气展露无疑。如果个晚来天欲雪的黄昏夜,真有冲动道一句“郭大侠,能饮一杯无?”

(本文完)


「思否技术人访谈」是 SegmentFault 上线的全新访谈类栏目,咱们但愿经过采访一线技术领袖,将他们真实的成长经历以及对技术的热爱传递给更多人,帮助技术人成长。本专栏由 SegmentFault COO 江波 Nadia 进行采访和撰稿。

寻求报道:nadia@sifou.com,申请转载:pr@sifou.com

相关文章
相关标签/搜索