什么是hadoop,hadoop能够作什么

面试如今这家公司的时候,领导说有意让我接触大数据这块的项目,当时可把我高兴的。虽然来这快两年了也没接触大数据,词却是听了几个。hadoop念着挺顺口,究竟是个什么东西呢。搜索了一波,总结以下。html

 

hadoop是什么?面试

Hadoop就是一个分布式计算的解决方案.数据库

 

能看懂吗。看不懂的继续往下看看编程

hadoop能作什么?分布式

        若是是1G , 1T 甚至 1PB 的数据须要找出相同的关键词,一般的方式须要耗时几天,有了hadoop之后能够缩短为几个小时。原理看起来很简单,利用分布式计算。Hadoop 要作的事, 首先把 1PB的数据文件导入到 HDFS中, 而后编程人员定义好 map和reduce, 也就是把文件的行定义为key,每行的内容定义为value , 而后进行正则匹配,匹配成功则把结果 经过reduce聚合起来返回.Hadoop 就会把这个程序分布到N 个结点去并行的操做。oop

这就是云计算。若是不懂还有更简单的例子大数据

        好比  1亿个  1 相加 得出计算结果, 咱们很轻易知道结果是 1亿.可是计算机不知道,那么单台计算机处理的方式作一亿次的循环,每次结果+1。
那么分布式的处理方式则变成 我用 1万台 计算机,每一个计算机只须要计算 1万个 1 相加 ,而后再有一台计算机把 1万台计算机获得的结果再相加
从而获得最后的结果.
        理论上讲, 计算速度就提升了 1万倍. 固然上面多是一个不恰当的例子.但所谓分布式,大数据,云计算 大抵也就是这么回事了.云计算

        hadoop擅长日志分析,facebook、淘宝搜索中的 自定义筛选都使用的Hive。不只如此,Twitter、Yahoo也是用到Pig技术。spa

 

PS:  .net

     Hive是Hadoop生态圈中及其重要的一个组件。Hadoop生态的数据是存储在HDFS中,而Hive能对其中的数据进行分析和管理。用户经过命令行或JDBC可以使用Hive进行增删改查等数据库操做。

想更加了解hadoop的朋友能够多了解Hive、Pig、Hbase,这篇文章能够看下,相信会有很大帮助 Hadoop的Hive、Pig、Hbase

 

此文摘自:

通俗易懂的了解Hadoop

相关文章
相关标签/搜索