(2003)GFS --> HDFSweb
(2004)MapReduce --> MapReduce并发
(2006)BigTable --> HBase(Hadoop DataBase)负载均衡
Facebook : HiveQL进行数据分析;框架
淘宝搜索 :Hive自定义筛选;分布式
eBay :数据仓库;oop
Twitter :Pig高级数据处理,发现可能认识的人;大数据
Amazon :协同过滤的推荐,及淘宝推荐;优化
Yahoo :pig,垃圾邮件的识别过滤及用户特征建模;google
天猫 :hive,推荐系统(广告联盟),少许尝试mahout。6:56spa
扩容能力(Scalable):可靠的存储和处理PB级数据;
成本低(Economical):廉价机集群;
高效率(Efficient):并发;
可靠行(Reliable):存储多个副本;
HDFS 海量存储(通讯RPC);
2.x比1.x的优化:
NameNodeHA:1.x只有一个,2.x有多个;
federation:
DataNode:有多个块Block,每一个块有128M;
NameNode的Metadata记录位置:
FileName:文件名
replicas:副本数
block_ids:block块
id2host:id和主机名关系
MapReduce 海量计算:
YARN(Yet Anothor Resource Negotiator):资源调度管理系统;
2台(机器1+机器2--JDK+Hadoop)运行NameNode(HDFS的老大):HA
NameNode、DFSZKFailoverController.
NameNode、DFSZKFailoverController.
1台(机器3--JDK+Hadoop)运行ResourceManager(YARN的老大);
ResourceManager
3台(机器4+机器5+机器6--JDK+Hadoop+Zookeeper)运行DataNode,并安装ZK(奇数个)
DataNode、NodeManager(YARN的小弟)、JournalNode(实时数据同步)、QuorumPeerMain(ZK的节点)。
DataNode、NodeManager(YARN的小弟)、JournalNode(实时数据同步)、QuorumPeerMain(ZK的节点)。
DataNode、NodeManager(YARN的小弟)、JournalNode(实时数据同步)、QuorumPeerMain(ZK的节点)。
Zookeeper(ZK-2181)是大数据协调管理框架,能够进行master选举、负载均衡、分布式锁、配置信息维护等;