hadoop集群在互联网企业的应用(15)

Hadoop集群在互联网企业的应用node

1. 京东商城数据库

(1) 源起:为pop商家进行日志分析服务安全

(2) 瓶颈服务器

性能瓶颈:采用Oracle RAC(2节点),IBM小型机,因为数据量极大,没法知足时效要求架构

成本瓶颈:小型机再进行高配和节点扩展,价格太贵运维

(3) Hadoop集群做为解决方案分布式

20多个节点的hadoop集群oop

数据定时从收集服务器装载到hadoop集群(周期为天极或小时级)性能

数据通过整理(预处理)后放进数据仓库系统,数据仓库是基于hive架构的,使用Hive的主要缘由是技术人员基本都是基于Oracle数据库的技能,因为Hive支持SQL查询,于是技能能够平稳过渡.net

数据仓库查询统计的结果会被导到hbase,而后和应用进行链接,应用捕鱼hive直接链接的缘由,是基于效率的考虑。导出数据到hbase由自行开发的一段c程序完成

应用即portal经过API与hbase链接获取数据

(4) 遇到的挑战

clip_image002

(5) 心得体会

clip_image004

(6) 部门结构

clip_image006

2.Hadoop在淘宝和支付宝的应用

(1)

clip_image008

(2)对hadoop源起的修改

改进Namenode单点问题

增长安全性

改善Hbase的稳定性

改进反哺Hadoop社区

(3)管理模式

集团统一管理

Hadoop运维团队

Hadoop开发团队

数据仓库团队(Hive)

(4)准实时的流数据处理技术

clip_image010

(5)淘宝数据魔方

clip_image012

(6) 架构图

clip_image014

clip_image016

clip_image018

clip_image020

clip_image022

clip_image024

clip_image026

clip_image028

clip_image030

(7)量子恒道

clip_image032

(8)oceanbase

clip_image034

clip_image036

总体数据分布

clip_image038

数据演进过程

clip_image040

clip_image042

clip_image044

clip_image046

3.Hadoop在百度的应用

(1)

clip_image048

(2)挑战

clip_image050

(3)分布式计算2.0

clip_image052

(4)HDFS2.0

clip_image054

clip_image056

clip_image058

(5)MAP-reduce2.0

clip_image060

clip_image062

相关文章
相关标签/搜索