1、什么是大数据分析工具及技术
Hadoop是目前的处理和存储海量数据的最佳工具。Hadoop能够利用数百台甚至数千台计算机处理大数据问题,而不是使用单机处理。
Hadoop能够以廉价、快速的范式处理大数据,彬进行数据挖掘和数据分析。Hadoop能解决大多数大数据问题。
Apache Hadoop是开源项目,灵感来自于Google的研究。
Hadoop把计算机协调成一个总体,称为集群,其中的每台计算机都称为节点。
2、Hadoop大数据分析工具及技术的优势:
1. Hadoop很便宜。
Hadoop是开源的Apache项目,全部人均可以避免费使用。Hadoop运行于普通硬件之上,所以无需购买专业的数据库服务器。
2. Hadoop速度很快。
Hadoop能够在几分钟内处理TB级的数据,在几小时内能够处理完PB级的数据。并且Hadoop仍是那些互联网巨头如Facebook、Twitter、Yahoo、eBay、Amazon等快速处理大数据并制订决策的惟一方式。
3. Hadoop能够为大数据存储任意扩展。
须要更多的空间吗?只需增长带硬盘驱动器的节点,永远都没必要关机。
4. Hadoop能够扩展到大数据计算。
你的集群很慢吗?只需增长更多的节点就能够提高速度。Hadoop的扩展几乎是线性的,这意味着节点数量增长一倍后只需一半的计算时间。
5. Hadoop的大数据类型是灵活的。
你在处理结构化的数据吗?很好。你有半结构化或非结构化的数据吗?Hadoop能够存储和处理任意类型的数据。
6. Hadoop对编程语言是灵活的。
Hadoop自己是用Java开发的,可是你可使用类SQL语言如Apache Hive访问你的数据。若是你想要过程式的语言进行分析,能够用Apache Pig。若是你想深刻框架,你能够用Java、C/C++、Ruby、Python、C#、QBasic等任意语言自定义分析你的数据。
做者:chszs,博客主页:http://blog.csdn.net/chszs
3、Hadoop大数据分析工具及技术的缺点:
1. 难以建设好纯Hadoop环境。
最好仍是聘请一些专家或购买一些第三方Hadoop公司提供的服务吧。
2. 纯Hadoop环境难以管理。
目前还缺乏图形化的管理界面。
3. 纯Hadoop难以一直保证健壮性。
Hadoop有各类单点故障。单Hadoop崩溃时,你会损失数据和损失时间。
4. 纯Hadoop难以使用。
这是很严肃的,不是笑话。
5. 纯Hadoop并不安全。
你存储在Hadoop的文件并不安全,用户能轻易损坏或偷走数据。全部的Hadoop用户必须是可信任的。
6. 纯Hadoop并未针对硬件进行优化。
数据库