hadoop系列之基础系列

一、Hadoop基础 1、分布式概念         通过爬虫-->爬到网页存储-->查找关键字         一台机器存储是有限的         Google采用多台机器,使用分布式的概念去存储处理           【关于计算】10TB数据,一台机器无法处理,可以用10台机器处理         每台机器可以处理1TB           Mapreduce额核心思想:分而治之     
相关文章
相关标签/搜索