Hadoop集群在互联网企业的应用node
1. 京东商城数据库
(1) 源起:为pop商家进行日志分析服务安全
(2) 瓶颈服务器
性能瓶颈:采用Oracle RAC(2节点),IBM小型机,因为数据量极大,没法知足时效要求架构
成本瓶颈:小型机再进行高配和节点扩展,价格太贵运维
(3) Hadoop集群做为解决方案分布式
20多个节点的hadoop集群oop
数据定时从收集服务器装载到hadoop集群(周期为天极或小时级)性能
数据通过整理(预处理)后放进数据仓库系统,数据仓库是基于hive架构的,使用Hive的主要缘由是技术人员基本都是基于Oracle数据库的技能,因为Hive支持SQL查询,于是技能能够平稳过渡.net
数据仓库查询统计的结果会被导到hbase,而后和应用进行链接,应用捕鱼hive直接链接的缘由,是基于效率的考虑。导出数据到hbase由自行开发的一段c程序完成
应用即portal经过API与hbase链接获取数据
(4) 遇到的挑战
(5) 心得体会
(6) 部门结构
2.Hadoop在淘宝和支付宝的应用
(1)
(2)对hadoop源起的修改
改进Namenode单点问题
增长安全性
改善Hbase的稳定性
改进反哺Hadoop社区
(3)管理模式
集团统一管理
Hadoop运维团队
Hadoop开发团队
数据仓库团队(Hive)
(4)准实时的流数据处理技术
(5)淘宝数据魔方
(6) 架构图
(7)量子恒道
(8)oceanbase
总体数据分布
数据演进过程
3.Hadoop在百度的应用
(1)
(2)挑战
(3)分布式计算2.0
(4)HDFS2.0
(5)MAP-reduce2.0