TOP100summit：【分享实录】链家网大数据平台体系构建历程

时间 2019-12-12

标签 top100summit summit 分享实录数据平台体系构建历程繁體版

原文原文链接

本篇文章内容来自2016年TOP100summit 链家网大数据部资深研发架构师李小龙的案例分享。
编辑：Cynthiapython

李小龙：链家网大数据部资深研发架构师，负责大数据工具平台化相关的工做。专一于数据仓库、任务流调度、元数据管理、自助报表等领域。以前在百度从事了四年的数据仓库和工具平台的研发工做。mysql

导读：链家网大数据部门负责收集加工公司各产品线的数据，并为链家集团各业务部门提供数据支撑。本文分享链家网大数据部成立后，在发展变革中遇到的一些问题和挑战，架构团队是如何构建一站式的数据平台来解决获取数据的效率问题，如何构建多层次系统来组建大数据架构体系。重点介绍团队早期做为数据报表支持者，向当下数据平台方转变的这一历程，经过对数据处理流程的梳理，构建一体化的数据接入/计算/展现的开放平台，提高数据运转效率，快速知足集团内数据需求。sql

1、背景简介shell

链家网自2014年成立后，全面推动020战略，打造线上线下房产服务闭环，公司业务迅速增加，覆盖全国28个地区，门店数量超过8000家。随着链家集团积累数据的不断增多，在2015年专门成立了大数据部，推动集团内各公司数据资产的整合，以数据驱动公司业务的发展。数据库

链家将房地产交易大数据分为物的数据、人的数据、行为数据三大块来进行研究。
● 物的数据主要是构建了全国的楼盘字典，拥有专业的摄影测量团队实地勘测，收录了7000万套房屋的详细信息，包括小区周边、人文素养等等。
● 人的数据，包括买家、业主、经纪人三方，目前在全国有13万经纪人，对经纪人的背景、从业年限、资历、专业能力、历史行为有详细记录，给客户更加精准的参考。目前链家网服务的买家和卖家超过两千多万，对用户进行画像，而后推荐更加合适的房屋。
● 行为数据，包括线上行为和多样的线下行为，譬如线上的浏览日志，线下的看房行程等。安全

经过分析这些数据，找到与业务的结合点，目前大数据在链家网具体的应用场景有房屋估价、智能推荐、房客图谱、BI报表。性能优化

2、大数据从0到1的架构落地架构

大数据部成立之后，借鉴业界成熟的数据仓库方案，设计的早期架构图如图1所示：运维

图1 数据仓库早期架构工具

在这个阶段咱们主要作了三件事：
● 搭建hadoop集群，初期只有10多台机器，随着业务的发展，集群规模也在不断增加。
● 采用HIVE构建数据仓库，数据仓库里的数据来源于业务方的mysql数据库和log日志。
● 定制化报表开发，按照业务方的需求，case by case作一些BI报表展现，知足业务方对数据的分析。

这个架构简单清晰，这样作有三个好处：
● 使用开源的组件，方便扩展和运维；
● 采用业界成熟的数据仓库方案，数据仓库分层模型设计；
● 有利于技术人员培养，技术团队在成长初期技术选型须要考虑市场上人员状况，因此选择了使用范围广的技术。

具体讲讲HIVE数据仓库的模型，该模型一共分为5层。
● 最下面是STG层，用来存储源数据，保持与数据源彻底一致；
● 第二层是ODS层，会进行数据清理等工做，譬如不一样业务系统的城市编码不一致，有的001表明北京，有的110表明北京，在ODS层进行维度编码的统一处理。还有不一样业务系统的金钱单位不一致，有的是元、有的是分，在此统一采用分为单位，保留两位小数；
● 最上面是报表层，根据业务需求进行加工处理，产出报表数据。至于数据仓库遵循的范式结构，目前没有严格一致地规范，星型模型和雪花模型都有采用。

早期的大数据架构落地后，支撑了将近一年时间，从2015年初到2016年初，取得了不错的效果。
● 收集汇总了集团内各个分公司、各条产品线的数据，便于交叉分析。经过对比分析数据，能帮助业务系统更好的发展。
● 支撑集团内大部分报表需求，帮助运营人员改进决策，数据驱动。巧妇难为无米之炊，当数据仓库积累了大量历史数据，数据挖掘的同窗就能进行深度分析。

3、大数据平台化体系的建设

为何要作平台化？

主要缘由仍是随着公司业务的快速发展，数据需求迅速增多，早期的大数据架构遇到一些新挑战。
● 数据需求快速增加：链家业务增加到全国多个城市，各个城市的报表需求不少，并且因为各个地方的政策不太同样，报表需求也有所差别，此外还有大量的临时统计数据需求。为了能快速响应需求，咱们提出平台化，经过提供各类数据处理和探索工具，让用户自助高效地获取一些数据。
● 数据治理亟需规范：各条产品线的数据都进入仓库之后，因为需求很急迫，一些建模规范未能有效执行，致使仓库里数据冗余繁杂，wiki更新维护不及时，难以清晰掌握数据仓库里数据总体概况。指标定义不清晰，一些数据需求人员按照本身的理解制定指标含义，结果上线后，发现不一样的人对指标理解不一致，致使返工。
● 数据安全迫在眉睫：对数据的申请须要进行集中的审批管理，对数据的使用须要进行持续的追踪备案，防止数据泄露。

为了解决存在的这些问题，咱们提出了新的平台化架构图。平台化架构数据流图如图2所示：

图2 平台化架构数据流图

对比新老架构图能够看出，首先是多了红色的实时数据流部分，日志log采用flume对接Kafka消息队列，而后使用SparkStreaming/Storm进行日志的分析处理，处理后的结果写入到Hbase供API服务使用。

另外，在OLAP部分，引入了Kylin做为MOLAP处理引擎，会按期将Hive里面的星型模型数据处理后写入Hbase，而后Kylin对外提供数据分析服务，提供亚秒级的查询速度。

图中右边是数据治理相关组件，有数据权限、数据质量、元数据等。在新的平台化架构图中，咱们将大数据工程平台分为三层，由上到下分别是应用层、工具层、基础层，如图3所示：

图3 大数据工程平台

3.1 应用层
应用层，主要面向数据开发人员和数据分析师，重点解决三类问题：
● BI报表产出速度如何加快，缩短业务方从提出数据需求到报表产出的时间周期。
● 数据治理，对公司的核心数据指标进行统必定义，对元数据进行管理，集中数据的审批流程。
● 数据流转集中管控，数据在各个系统间的流转统一走元数据管理平台，能很方便排查定位问题。

为了加快BI报表产出，咱们开发了地动仪自助报表，在数据源已经就绪的状况下，目标是5分钟完成一个通用报表的配置，获得相似 excel表格、柱状图这种图表效果，目前已经支持 mysql、presto 、kylin等各类数据源。另外，若是须要定制化的Dashboard报表，自助报表也支持复用一些图表组件。

元数据管理系统

元数据对公司的全部数据信息进行管理维护，经过数据地图，能够看到公司数据仓库里的全部数据以及数据信息的变动状况，方便用户进行搜索查询。指标图书馆对指标进行详细的描述定义，并且能够对每一个指标关联的维度进行管理，维度表以及维度取值的描述。另外，基于元数据咱们还能够作数据血缘关系，方便追踪数据的上下游关系，可以快速定位排查问题。

元数据管理系统上线后，取得了如下三个成果：
● 全部表的建立修改都通过元数据系统，能够实时清晰掌握仓库里的数据状况。
● 成立了公司级别的数据委员会，统一制定公司的核心指标，各个部门能够自定义二级指标。
● 数据的接入和流出都经过元数据系统集中管控，全部的日志接入、mysql接入经过元数据来配置，数据申请也是走的元数据，方便集中管理运维。

3.2 工具层
工具层定位于通用工具组件的开发，为上层应用提供能力支撑，同时解决用户在使用大数据计算中遇到的实际困难。譬如ETL做业任务不少、追踪排查问题比较麻烦、数据修复时间长、Hue hive查询速度比较慢、一个sql须要等待几分钟。

图4是实际工做中一个典型的数据任务链路图，抽取了做业链路中的一部分。

图4 数据任务链路图

从图中咱们能够看到如下信息：
● 任务链路特别长，可能有6层之多；
● 任务种类多，既有mysql导入任务，也有hive-sql加工任务，还有发送邮件的任务；
● 依赖类型比较复杂，有小时级别依赖分钟任务，也有日周月季互相依赖的任务。

对于这种复杂的数据链路，以前咱们采用oozie+python+shell解决，任务量有5000多个，维护困难，且遇到数据修复问题，难以迅速定位。为了解决这些问题，咱们参考了oozie、airflow等开源软件，自主研发了新的任务调度系统。

在新的任务调度系统上，用户能够自助运维，对任务进行上线或者重跑，并且能够实时看到任务的运行日志。之前可能要登录到集群机器上上查看日志，很是麻烦。

调度系统上线后，取得了很是好的效果：
● 任务配置简单，在图形上简单的拖曳便可操做。
● 提供经常使用的ETL组件，零编码。举个例子，之前发送数据邮件，须要本身写脚本，目前在咱们界面只需配置收件人和数据表便可。
● 一键修复追溯，将排查问题修复数据的时间由一人天缩减到10分钟。
● 集群的资源老是紧张的，目前咱们正在作的智能调度、错峰运行，保证高优先级任务优先运行。

Adhoc即席查询，以前咱们使用的hue，速度比较慢。经过调研市面上的各类快速查询工具，咱们采用了Presto和Spark SQL双引擎，架构图如图5所示：

图5 双引擎架构图

3.3 基础层
基础层偏重于集群底层能力的建设和完善。遇到的问题集中在两个方面：
● 任务量剧增，目前天天有一万多JOB，形成集群资源至关紧张，排队严重。
● 集群的数据安全须要规划，并且因为多个部门都在使用集群，以前未划分帐号和队列，你们共同使用。　

针对这些问题，咱们在基础层作了一些改进。

在集群性能优化方面，经过划分单独的帐号队列，资源预留，保证核心做业的执行，同时与应用层的权限管理打通，对不一样的目录按照用户归属限制不一样的权限。随着集群数据的膨胀，很多冷数据无人管理，咱们在梳理后，将冷数据迁移到AWS S3存储。

4、案例启示
● 传统企业或者初创团队如何快速落地大数据，首先要采用成熟的业界方案，大的互联网公司的作法能够直接借鉴，稳定的开源软件直接使用；其次要深刻梳理公司业务，找到契合点，譬如链家网的房屋估价、个性化搜索、交叉报表分析。
● 面对公司业务的迅速增加，平台化思惟是解决问题的一个法宝。首先要经过梳理用户的流程和使用习惯，将这些服务自动化，让用户能自助排查一些问题；其次平台化开发的产品，先得实实在在解决用户痛点问题，本身愿意使用，而后才能推广给其余人使用。
● 平台化的产品须要梳理清楚流程，制定规范。先经过梳理调研公司的现状，而后规范流程，固然梳理的过程比较痛苦，须要不少人配合；制定了标准之后，须要保证标准的权威性和执行力，能够成立公司级别的数据治理委员会，发布核心指标，保证流程的推广执行。

TOP100全球软件案例研究峰会已举办六届，甄选全球软件研发优秀案例，每一年参会者达2000人次。包含产品、团队、架构、运维、大数据、人工智能等多个技术专场，现场学习谷歌、微软、腾讯、阿里、百度等一线互联网企业的最新研发实践。

第六届TOP100大会日程已经肯定，更多TOP100案例信息及日程请前往官网查阅。4天时间集中分享2017年最值得学习的100个研发案例实践。

免费体验票申请入口