摘要: 业务介绍 兑吧集团包含兑吧网络和推啊网络,兑吧网络是一家致力于帮助互联网企业提高运营效率的用户运营服务平台,提供积分商城和媒体运营服务。推啊网络是一家互动式广告平台,通过多年的探索与实践,独创了全新的移动广告模式,实现了广告主、媒体、用户多方双赢。java
兑吧集团包含兑吧网络和推啊网络,兑吧网络是一家致力于帮助互联网企业提高运营效率的用户运营服务平台,提供积分商城和媒体运营服务。推啊网络是一家互动式广告平台,通过多年的探索与实践,独创了全新的移动广告模式,实现了广告主、媒体、用户多方双赢。在推啊的广告场景中,广告主可得到更好的投放效果,媒体方能获得更好的流量变现效率,受众端具备更好的用户体验,目前推啊已经服务超过15000家媒体,阿里云hbase主要服务于"推啊"的广告业务。算法
"推啊"的总体业务流程以下图:服务器
广告平台基础架构完善,能有效支持业务,其中核心数据平台为公司全部业务提供强有力的数据支撑。其中整个数据平台根据处理业务不一样大体分为3个模块:网络
HBase在推啊主要用于流式数据统计,存储用户画像的相关数据,属于实时统计模块中主要存储。
实时统计时,对用户的行为数据根据不一样维度不一样指标进行统计,好比会记录用户在不一样广告上的曝光,点击,参与等数据,也会记录用户的相应属性,好比用户对哪类广告比较感兴趣,用户的年龄,性别,职业,爱好等特征。这些数据所有存储在HBase集群中。架构
最开始咱们是物理机房自建HBase,选择阿里云HBase主要出于如下几个考虑:并发
根据咱们业务的发展,从3个阶段阐述下阿里云hbase的使用状况以及遇到的问题运维
这个阶段咱们的数据中心是搭建在本身的IDC机房里,使用CDH 的hadoop来搭建的集群,全部的组件包括hive,JStorm,Druid等都安装在一个集群里,JStorm计算时会使用hadoop自带的HBase用来计算和统计数据,计算完成后,会将成品数据写入到阿里云的HBase上,业务系统会访问阿里云的HBase来获取计算好的数据,这样作的缘由主要从2个方面考虑:oop
这阶段咱们将IDC的hadoop集群迁移到阿里云上,新买了阿里云的HBase集群用来替换原先CDH中的HBase集群。IDC机房迁移到阿里云主要基于如下几点来考虑:性能
这个阶段hbase的配置是8核32G 4节点 200G 4 4 SSD存储,预估支撑20万的qps访问,目前大概存储了600G数据,集群的qps在峰值时能达到10万左右。优化
因为HBase基于java虚拟机原生机制问题,业务系统在读取HBase数据时,因为GC会致使读取抖动到100-200ms,对于广告推荐系统来讲,一次广告推荐要求在200ms内完成,这样的抖动显然是不能接受的,咨询过阿里云HBase同窗后,咱们对系统进行了以下改造:
另外据阿里HBase的同窗介绍,阿里云近期会推出的HBase 2.0,在架构级别作了优化,会从根本上解决因为Java GC机制致使的延迟抖动,很是期待。
整体来讲,阿里云HBase是很是优秀的。也感谢阿里云技术同窗,帮咱们解决了底层系统的运维和性能调优,保证了底层系统的稳定,使咱们能够更加专一的服务业务,帮助业务发展的更快。