互联网的飞速发展促进了不少新媒体的发展,不管是知名的大V,明星仍是围观群众均可以经过手机在微博,朋友圈或者点评网站上发表状态,分享本身的所见所想,使得“人人都有了麦克风”。不管是热点新闻仍是娱乐八卦,传播速度远超咱们的想象。能够在短短数分钟内,有数万计转发,数百万的阅读。如此海量的信息能够获得爆炸式的传播,如何可以实时的把握民情并做出对应的处理对不少企业来讲都是相当重要的。大数据时代,除了媒体信息之外,商品在各种电商平台的订单量,用户的购买评论也都对后续的消费者产生很大的影响。商家的产品设计者须要汇总统计和分析各种平台的数据作为依据,决定后续的产品发展,公司的公关和市场部门也须要根据舆情做出相应的及时处理,而这一切也意味着传统的舆情系统升级成为大数据舆情采集和分析系统。 分析完舆情场景后,咱们再来具体细化看下大数据舆情系统,对咱们的数据存储和计算系统提出哪些需求:html
咱们计划分两篇介绍完整的舆情新架构,第一篇主要是提供架构设计,会先介绍时下主流的大数据计算架构,并分析一些优缺点,而后引入舆情大数据架构。第二篇会有完整的数据库表设计和部分示例代码。你们敬请期待。 了解更多详细内容可点击加关注sql
需求分析 结合文章开头对舆情系统的描述,海量大数据舆情分析系统流程图大致以下:数据库
Lambda架构 (wiki) 网页爬虫
Lambda架构能够说是Hadoop,Spark体系下最火的大数据架构。这套架构的最大优点就是在支持海量数据批量计算处理(也就是离线处理)同时也支持流式的实时处理(即热数据处理)。 具体是如何实现的呢,首先上游通常是一个队列服务例如kafka,实时存储数据的写入。kafka队列会有两个订阅者,一个是全量数据即图片中上半部分,全量数据会被存储在相似HDFS这样的存储介质上。当有离线计算任务到来,计算资源(例如Hadoop)会访问存储系统上的全量数据,进行全量批计算的处理逻辑。通过map/reduce环节后全量的结果会被写入一个结构化的存储引擎例如Hbase中,提供给业务方查询。队列的另外一个消费订阅方是流计算引擎,流计算引擎每每会实时的消费队列中的数据进行计算处理,例如Spark Streaming实时订阅Kafka的数据,流计算结果也会写入一个结构化数据引擎。批量计算和流计算的结果写入的结构化存储引擎即上图标注3的"Serving Layer",这一层主要提供结果数据的展现和查询。 在这套架构中,批量计算的特色是须要支持处理海量的数据,并根据业务的需求,关联一些其余业务指标进行计算。批量计算的好处是计算逻辑能够根据业务需求灵活调整,同时计算结果能够反复重算,一样的计算逻辑屡次计算结果不会改变。批量计算的缺点是计算周期相对较长,很难知足实时出结果的需求,因此随着大数据计算的演进,提出了实时计算的需求。实时计算在Lambda架构中是经过实时数据流来实现,相比批处理,数据增量流的处理方式决定了数据每每是最近新产生的数据,也就是热数据。正由于热数据这一特色,流计算能够知足业务对计算的低延时需求,例如在舆情分析系统中,咱们每每但愿舆情信息能够在网页抓取下来后,分钟级别拿到计算结果,给业务方充足的时间进行舆情反馈。下面咱们就来具体看一下,基于Lambda架构的思想如何实现一套完整的舆情大数据架构。架构
经过这个流程图,让咱们了解了整个舆情系统的建设过程当中,须要通过不一样的存储和计算系统。对数据的组织和查询有不一样的需求。在业界基于开源的大数据系统并结合Lambda架构,整套系统能够设计以下:app
1.系统的最上游是分布式的爬虫引擎,根据抓取任务抓取订阅的网页原文内容。爬虫会把抓取到的网页内容实时写入Kafka队列,进入Kafka队列的数据根据前面描述的计算需求,会实时流入流计算引擎(例如Spark或者Flink),也会持久化存储在Hbase,进行全量数据的存储。全量网页的存储能够知足网页爬取去重,批量离线计算的需求。 2.流计算会对原始网页进行结构化提取,将非结构化网页内容转化为结构数据并进行分词,例如提取出网页的标题,做者,摘要等,对正文和摘要内容进行分词。提取和分词结果会写回Hbase。结构化提取和分词后,流计算引擎会结合情感词库进行网页情感分析,判断是否有舆情产生。 3.流计算引擎分析的舆情结果存储Mysql或者Hbase数据库中,为了方便结果集的搜索查看,须要把数据同步到一个搜索引擎例如Elasticsearch,方便进行属性字段的组合查询。若是是重大的舆情时间,须要写入Kafka队列触发舆情报警。 4.全量的结构化数据会按期经过Spark系统进行离线计算,更新情感词库或者接受新的计算策略从新计算历史数据修正实时计算的结果。运维
上面的舆情大数据架构,经过Kafka对接流计算,Hbase对接批计算来实现Lambda架构中的“batch view”和“real-time view”,整套架构仍是比较清晰的,能够很好的知足在线和离线两类计算需求。可是把这一套系统应用在生产并非一件容易的事情,主要有下面一些缘由。分布式
经过前面的分析,相信你们都会有一个疑问,有没有简化的的大数据架构,在能够知足Lambda对计算需求的假设,又能减小存储计算以及模块的个数呢。Linkedin的Jay Kreps提出了Kappa架构,关于Lambda和Kappa的对比能够参考"云上大数据方案"这篇,这里不展开详细对比,简单说下,Kappa为了简化两份存储,取消了全量的数据存储库,经过在Kafka保留更长日志,当有回溯从新计算需求到来时,从新从队列的头部开始订阅数据,再一次用流的方式处理Kafka队列中保存的全部数据。这样设计的好处是解决了须要维护两份存储和两套计算逻辑的痛点,美中不足的地方是队列能够保留的历史数据毕竟有限,难以作到无时间限制的回溯。分析到这里,咱们沿着Kappa针对Lambda的改进思路,向前多思考一些:假若有一个存储引擎,既知足数据库能够高效的写入和随机查询,又能像队列服务,知足先进先出,是否是就能够把Lambda和Kappa架构揉合在一块儿,打造一个Lambda plus架构呢? 新架构在Lambda的基础上能够提高如下几点:函数
1.在支持流计算和批计算的同时,让计算逻辑能够复用,实现“一套代码两类需求”。 2.统一历史数据全量和在线实时增量数据的存储,实现“一份存储两类计算”。 3.为了方便舆情结果查询需求,“batch view”和“real-time view”存储在既能够支持高吞吐的实时写入,也能够支持多字段组合搜索和全文检索。 总结起来就是整套新架构的核心是解决存储的问题,以及如何灵活的对接计算。咱们但愿整套方案是相似下面的架构: oop
1.数据流实时写入一个分布式的数据库,借助于数据库查询能力,全量数据能够轻松的对接批量计算系统进行离线处理。 2.数据库经过数据库日志接口,支持增量读取,实现对接流计算引擎进行实时计算。 批计算和流计算的结果写回分布式数据库,分布式数据库提供丰富的查询语意,实现计算结果的交互式查询。 3.整套架构中,存储层面经过结合数据库主表数据和数据库日志来取代大数据架构中的队列服务,计算系统选取自然支持批和流的计算引擎例如Flink或者Spark。这样一来,咱们既能够像Lambda进行无限制的历史数据回溯,又能够像Kappa架构同样一套逻辑,存储处理两类计算任务。这样的一套架构咱们取名为“Lambda plus”,下面就详细展开如何在阿里云上打造这样的一套大数据架构。
在阿里云众多存储和计算产品中,贴合上述大数据架构的需求,咱们选用两款产品来实现整套舆情大数据系统。存储层面使用阿里云自研的分布式多模型数据库Tablestore,计算层选用Blink来实现流批一体计算。
1.Tablestore已经深度和Blink进行整合,支持源表,维表和目的表,业务无需为数据流动开发代码。 2.整套架构大幅下降组建个数,从开源产品的6~7个组建减小到2个,Tablestore和Blink都是全托管0运维的产品,而且都能作到很好的水平弹性,业务峰值扩展无压力,使得大数据架构的运维成本大幅下降。 3.业务方只须要关注数据的处理部分逻辑,和Tablestore的交互逻辑都已经集成在Blink中。 4.开源方案中,若是数据库源但愿对接实时计算,还须要双写一个队列,让流计算引擎消费队列中的数据。咱们的架构中数据库既做为数据表,又是队列通道能够实时增量数据消费。大大简化了架构的开发和使用成本。 5.流批一体,在舆情系统中实时性是相当重要的,因此咱们须要一个实时计算引擎,而Blink除了实时计算之外,也支持批处理Tablestore的数据, 在业务低峰期,每每也须要批量处理一些数据并做为反馈结果写回Tablestore,例如情感分析反馈等。那么一套架构既能够支持流处理又能够支持批处理是再好不过。这里咱们能够参考以前的一篇文章《实时计算最佳实践:基于表格存储和Blink的大数据实时计算》。一套架构带来的优点是,一套分析代码既能够作实时流计算又能够离线批处理。
整个计算流程会产生实时的舆情计算结果。重大舆情事件的预警,经过Tablestore和函数计算触发器对接来实现。Tablestore和函数计算作了增量数据的无缝对接,经过结果表写入事件,能够轻松的经过函数计算触发短信或者邮件通知。完整的舆情分析结果和展现搜索利用了Tablestore的新功能多元索引,完全解决了开源Hbase+Solr多引擎的痛点:
1.运维复杂,须要有运维hbase和solr两套系统的能力,同时还须要维护数据同步的链路。 2.Solr数据一致性不如Hbase,在Hbase和Solr数据语意并非彻底一致,加上3.Solr/Elasticsearch在数据一致性很难作到像数据库那么严格。在一些极端状况下会出现数据不一致的问题,开源方案也很难作到跨系统的一致性比对。 查询接口须要维护两套API,须要同时使用Hbase client和Solr client,索引中没有的字段须要主动反查Hbase,易用性较差。
本文基于《百亿级全网舆情分析系统存储设计》并结合Tablestore的新功能作了现代大数据舆情系统的架构升级,实现了海量信息下的实时舆情分析存储系统。也介绍了开源方案,并和咱们的方案作了详细的对比。 点击了解更多详细内容 最高¥2000云产品通用代金券 promotion.aliyun.com/ntms/yunpar…
【助力企业上云】性能级主机2-5折 promotion.aliyun.com/ntms/act/en…