Hadoop的简介及伪分布式安装

一、Hadoop简介 是Apache的顶级项目,是一个可靠的、可扩展的、支持分布式计算的开源项目。 起源 创始人:Doug Cutting 和Mike 2004 Doug和Mike创建了Nutch - 利用通用爬虫爬取了互联网上的所有数据,获取了10亿个网页数据 - 10亿个网页数据是非结构化数据,就意味着这些数据是无法存储到数据库中 Doug发现了Google在2003年发表的一篇论文:《Goo
相关文章
相关标签/搜索