揭秘高德地图如何利用MaxCompute管理海量数据

要:随着自媒体的发展,传统媒体面临着巨大的压力和挑战,新华智云运用大数据和人工智能技术,致力于为媒体行业赋能。经过媒体大数据开放平台,将媒体行业全网数据汇总起来,借助平台数据处理能力和算法能力,将有价值数据内容和能力开放给用户。本文主要重新华智云数芯平台,媒体行业数据特征,批流处理数据架构,以及通用的媒体大数据平台能力等几个方面介绍了如何基于MaxCompute作媒体大数据开放平台建设。算法

演讲嘉宾简介: 李金波,新华智云首席数据官。负责阿里巴巴大数据通用计算平台MaxCompute(原ODPS)框架架构。对高可用分布式系统设计开发有多年经验。前后研发过阿里巴巴机器学习平台在线预测系统和通用大数据计算平台框架系统。 本次直播视频精彩回顾,戳这里!https://yq.aliyun.com/live/796 如下内容根据演讲嘉宾视频分享整理而成。 本次的分享主要围绕如下五个方面:数据库

1、关于新华智云 2、数芯-媒体大数据开放平台 3、媒体大数据平台能力 4、Project依赖 5、几点小提示微信


1、关于新华智云 新华智云是新华社与阿里巴巴合资成立的一家公司,主要面向运用大数据和人工智能技术,致力于为媒体行业赋能。随着自媒体的发展,自媒体公司很是的火热,现在日头条,抖音等。对传统媒体来讲,面临着巨大的压力和挑战。传统媒体急切的但愿互联网的技术帮助他们赋能。数据结构

媒体大脑-数芯架构

媒体大脑是新华智云底层的产品品牌,数芯是媒体大脑基础的数据平台。数芯定位为媒体大数据开放平台,平台中包含了媒体行业所依赖的各类各样的数据。数芯但愿经过平台自己的数据处理能力和算法加工,将挖掘的有价值数据内容和能力开放给上层用户。目前,数芯包含了各类各样的数据,涵盖了400多万互联网站点,主要以中文站点为主,日增7千万文章,包含微信公众号,微博帐号,图片以及多媒体来源等。将不一样来源存储在平台中,以后对接数据,进行更多的加工和运用。“数据已经再也不是一种成本,而是成为一种生产资料”,这句话在媒体行业更可以有所感觉。一篇新闻除了是新闻以外,仍是一条数据,同时新闻自己又会衍化产生新闻。不少媒体公司利用互联网技术得到大量的新闻内容以后,辅助他们新闻的生成过程。数芯会将媒体数据从不一样的源头,不一样供应商,以不一样内容格式存储到平台中,进行数据清洗,结构化,加工等等一系列的操做以后,生成有价值的内容。如,这段时间以内媒体关注的热点,互联网上发生的事件,同时识别新闻和机构之间的关系,基于实体将各个渠道上的数据整合起来,为用户提供统一的视图。用户能够看到信息的发酵过程,以及信息在什么地方传播。框架

2、数芯-媒体大数据开放平台运维

数芯是一个开放的大数据平台,开放的点主要有三个方面。第一,数据的开放。任何数据进到数芯以后,都会在整个大数据处理的链条中作计算,内容结构化,加入标签。同时基于用户感兴趣的数据范围,作标签的特征过滤,筛选用户想要的数据。数芯帮助用户了解互联上的信息,了解互联网上与自身相关的事件。第二,数芯提供智能能力的开放。用户无论怎么努力,不可能获取到互联网上全部的数据;并且不可能每一个公司都会自建内容大数据平台,作数据分析,也不可能都配备算法工程师;并且公司的数据处理能力也不是足够强;媒体大数据平台能够帮助用户将与他们有关的数据加工好,经过算法能力得到用户关心的信息。如用户提供一个文章,数芯能够反馈这篇文章与谁相关,相同的文章在什么地方传播,文章由谁编写,发在什么地方等等信息。经过开放算法能力,帮助用户作数据能力和算法能力的应用,提供文本反垃圾服务,互联网内容结构化服务,文本内容实体识别服务,文本去重断定服务,图像人物识别服务和图像标签化服务等等。第三,产品能力的开发,包含舆情监测能力,版权检测,传播分析等能力。机器学习

媒体数据特征分布式

媒体大数据有三大特征,第一,媒体数据是非结构化性很是强。与传统行业数仓最大的区别是媒体行业90%以上数据都是非结构化的,如文本,图片,视频等等。第二,数据来源多样性。媒体行业数据有多种外部的数据源,它们有不一样的数据提供的方式,提供不一样的数据能力。因此必需要有强大的数据汇总能力才能将全部数据汇总在一块儿并服务好下游客户。另外,数据效性要求很是高。媒体行业自然追逐新闻热点,假如知道一个事件是潜在的热点,媒体但愿第一时间对热点进行追踪,报道和解读。媒体机构但愿经过数芯平台,可以最快的发现互联网上发生的事情,发现热点以后以最快的方式,将结构化后的数据给到用户。工具

批流处理结合

基于媒体行业数据的特征,数芯平台采起批,流结合的方式解决目前客户和业务场景对数据的要求。批指的是大量的计算,基于平台特征完成复杂的模型,算法训练,长周期计算,文本实体识别,文本挖掘,借助批量的能力解决数据更深度,更大规模的加工。流指的是流式的计算,完成数据的清洗,结构化,轻计算和实时统计。出来一篇新闻,在整个新闻流传的过程当中实时的将信息处理好。目前数芯总体的流计算大概须要300毫秒,即一篇新闻从源头过来,存储到平台,服务化出去中间须要通过300毫秒的时间。

批流结合的数据架构

数据从不一样数据源过来,如API,OTS,ROS,log,file等,一方面数据要在实时计算当中作URL去重,正文结构化,标记来源,垃圾识别,实体识别和轻度的实时统计。另外基于MaxCompute,利用DataHub将数据存储在批处理平台中,因为流计算自己不作持久化存储,因此全部数据都将存储在MaxCompute上。数据存储以后作主题建设,关系挖掘,知识图谱计算,算法训练。经过批流结合的的处理方式可以知足客户对数据自己能力的须要。以后,给用户提供搜索能力,大屏能力和BI能力等。 3、媒体大数据平台能力 内容结构化

人们在网页当中看到一篇新闻,而在数据库当中新闻是按字段存储的。好比,分为新闻标题,发布网站,时间,新闻来源,情感等等。平台须要将新闻信息进行结构化,成为后续计算过程须要依赖的数据结构化字段。

主题构建

媒体行业会分主题建设数据。平台会获取到不一样的数据源,不一样类型的数据。这些数据不可能彻底的结合在一块儿,数芯平台会将全部数据分门别类的分红不一样主题,按不一样主题建设,存放和加工。媒体是一个很是复杂的行业,对各个行业的数据都是有所诉求,媒体须要挖掘不少不一样行业的数据支撑新闻生产和报道。目前,数芯集中在媒体内在的数据,体育,金融,气象等几个主题。数芯一方面将不一样的数据源汇总到平台当中,另外一方面数据进来以后,挖掘潜在的新闻点,生成选题策划,帮助用户作选题等等工做。

实体识别

实体识别对于媒体大数据来讲是最基础的能力。数芯目前积累的实体围绕人,机构,地点等三类数据。新闻行业,媒体行业会围绕某一个实体,关注与实体相关的数据能力。好比,不少公司会关注和本身相关的咨询,关心这些新闻是正面仍是负面,哪些机构会发正面的信息,哪些机构会发负面的信息等。只有当将大批量的数据聚集起来以后,才能作相关内容的分析。实体识别场景在媒体大数据领域是很是基础的能力,首先,创建实体库。同时,当有一篇新闻产生,数芯须要实时的识别新闻与哪些人,机构和地点相关。另外,数芯须要聚集实体之间关系,作实体关系图谱。好比,不少品牌会瞄准本身的竞争对手,调整品牌战略,实体关系图谱对不少公司品牌运营的推广有很大的帮助。

情感分析

情感分析也是媒体大数据平台中比较通用的能力,当一篇新闻出来以后,用户须要知道是情感上褒义仍是贬义。信息数量少的信息能够人工判断,可是若是天天有上千篇,上完篇的内容就没法经过人工来判断。媒体行业的情感分析与学术上的情感分析有差别。目前,自媒体出来以后短文本的内容愈来愈多。短文本的情感分析和长文本的情感分析不一样,以往都是采用同一个算法实现情感分析,但发现效果并很差。如今,数芯将情感分析场景分开,微博短文本的情感分析用Word2vec+LSTM,新闻类的长文本的情感分析用Word2vec+CNN+RNN。分开以后发现每一类情感分析的效果都有所提高。

内容去重

内容去重是媒体大数据平台很是重要的一部分。去重能力是对于常见的新闻摘录,编辑,删减有准确的判重能力。一篇新闻并非只由一我的写,它会被不少机构和渠道所转发。如何知道一篇新闻在哪些渠道被转发,其实就是经过去重的方式实现的。经过从大量的渠道聚集数据后,平台须要比对一篇新闻与以前哪篇新闻类似,经过类似度的比对获得结果。最先的时候,去重是基于关键词进行比对,数芯采起关键词和语义,两种方式比对,去重效果明显提高。内容去重能够用于新闻的热度计算,新闻数据顾虑清洗,文章版权追踪等业务场景。

内容标签化

搜索引擎能够用来搜索新闻,经过关键词和文章的匹配度来决定这篇内容是否推荐给用户。但纯搜索的方式已经知足不了用户家的需求。今日头条之因此成功,是由于它基于新闻和用户的习惯推荐内容。内容标签化就是经过机器的方式理解新闻,理解新闻与哪些信息相关,基于文本挖掘的手段,实现对于全网采集的内容数据进行分类打标。

4、Project依赖 不少时候,使用大数据平台要不要分项目都是一个很难的抉择。不分项目的好处是开发人员都在同一个平台工做,互相之间不须要太多的受权,总体工做效率会比较高。分项目的好处是利用不一样平台作不一样的业务会更清晰,更具条理性。数芯在开始使用MaxCompute时,便采起分项目方式,其考虑的缘由有如下三点。首先,分项目能够区分业务优先级,避免低优先级任务影响高优先级的数据产出。另外,能够区分资源消耗型,避免出现高资源消耗任务总体影响数据产出。还有区份内外服务,避免内部服务互相交叉影响。整体上,分项目能够为数据产出的稳定性提供很好的保障。

5、几点小提示

首先,因为媒体行业大部分数据都是非结构化的数据,会形成对单字段的容量要求比较大的问题。并且不一样的平台和传输工具对于数据的字段大小的限制不一样。在从不一样平台作数据传输时,尤为须要关注这个问题。 第二,能用UDF解决的问题,不要使用MR。使用UDF能够提升开发和运维的效率。即尽可能用简单的表达式处理逻辑,这对总体数据产出稳定性有好处。 第三,对查询效率要求不高的数据报表能够直连MaxCompute,减小中间环节。如此能够大大减小数据转换和数据维护成本。 第四,Datahub一方面能够接数据源,另外还能够较好的串联批,流之间的计算流程,保持数据一致性和造成依赖。 第五,合理设计批,流的数据处理分工,减小重复计算。 第六,媒体大数据常常须要运用不一样的算法,PAI能够帮助解决不少算法问题,减小开发的工做量,提升数据处理的效率。 欢迎对大数据计算技术感兴趣的开发者一块儿加入“MaxCompute开发者社区”,钉钉群号11782920,或扫下方二维码。

媒体大脑强势来袭,新华智云热烈期盼同行者加入,共同战将来!加入咱们请戳连接:http://www.xinhuazhiyun.com/join

上云就看云栖号:更多云资讯,上云案例,最佳实践,产品入门,访问:https://yqh.aliyun.com/

本文为阿里云原创内容,未经容许不得转载。

相关文章
相关标签/搜索