强-大数据第三讲

Hadoop的背景起源二:MapReduce编程

1、什么是大数据,本质?
(1)数据的存储:分布式文件系统(分布式存储)-----> HDFS: Hadoop Distributed File System
(2)数据的计算:分布式计算

2、如何解决大数据的计算?分布式计算
(1)什么是PageRank(MapReduce的问题的来源)
(*) 搜索排名

(2)MapReduce(Java语言实现)基础编程模型: 把一个大任务拆分红小任务,再进行汇总
(*) 更简单一点例子分布式

 

 

相关文章
相关标签/搜索