大数据架构工具hadoop

Hadoop是一个开源框架,它容许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据。它的目的是从单一的服务器到上千台机器的扩展,每个台机均可以提供本地计算和存储。

90%的世界数据在过去的几年中产生”。mongodb

因为新技术,设备和相似的社交网站通讯装置的出现,人类产生的数据量每一年都在迅速增加。美国从一开始的时候到2003年产生的数据量为5十亿千兆字节。若是以堆放的数据磁盘的形式,它能够填补整个足球场。在2011年建立相同数据量只须要两天,在2013年该速率仍在每十分钟极大地增加。虽然生产的全部这些信息是有意义的,处理起来有用的,可是它被忽略了。数据库

什么是大数据?

大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具,而是涉及的业务和技术的许多领域。编程

在大数据会发生什么?

大数据包括经过不一样的设备和应用程序所产生的数据。下面给出的是一些在数据的框架下的领域。安全

  • 黑匣子数据:这是直升机,飞机,喷气机的一个组成部分,它捕获飞行机组的声音,麦克风和耳机的录音,以及飞机的性能信息。服务器

  • 社会化媒体数据:社会化媒体,如Facebook和Twitter保持信息发布的数百万世界各地的人的意见观点。网络

  • 证券交易所数据:交易所数据保存有关的“买入”和“卖出”,客户由不一样的公司所占的份额决定的信息。架构

  • 电网数据:电网数据保持相对于基站所消耗的特定节点的信息。并发

  • 交通运输数据:交通数据包括车辆的型号,容量,距离和可用性。框架

  • 搜索引擎数据:搜索引擎获取大量来自不一样数据库中的数据。yii

Big Data

所以,大数据包括体积庞大,高流速和可扩展的各类数据。它的数据为三种类型。

  • 结构化数据:关系数据。

  • 半结构化数据:XML数据。

  • 非结构化数据:Word, PDF, 文本,媒体日志。

大数据的好处

  • 经过保留了社交网络如Facebook的信息,市场营销机构了解能够他们的活动,促销等广告媒介的响应。

  • 利用信息计划生产在社会化媒体同样喜爱并让消费者对产品的认知,产品企业和零售企业。

  • 使用关于患者之前的病历资料,医院提供更好的和快速的服务。

大数据技术

大数据的技术是在提供更准确的分析,这可能影响更多的具体决策致使更大的运行效率,下降成本,并减小了对业务的风险。

为了利用大数据的力量,须要管理和处理的实时结构化和非结构化的海量数据,能够保护数据隐私和安全的基础设施。

目前在市场上的各类技术,从不一样的供应商,包括亚马逊,IBM,微软等来处理大数据。尽管找到了处理大数据的技术,咱们研究了如下两类技术:

操做大数据

这些包括像MongoDB系统,提供业务实时的能力,这里主要是数据捕获和存储互动工做。

NoSQL大数据系统的设计充分利用已经出如今过去的十年,而让大量的计算,以廉价,高效地运行新的云计算架构的优点。这使得运营大数据工做负载更容易管理,更便宜,更快的实现。

一些NoSQL系统能够提供深刻了解基于使用最少的编码无需数据科学家和额外的基础架构的实时数据模式。

分析大数据

这些包括,如大规模并行处理(MPP)数据库系统和MapReduce提供用于回顾性和复杂的分析,可能触及大部分或所有数据的分析能力的系统。

MapReduce提供分析数据的基础上,MapReduce能够按比例增长从单个服务器向成千上万的高端和低端机的互补SQL提供的功能,这是系统的一种新方法。

这两个类技术是互补的,并常常一块儿部署。

操做与分析系统

  操做 分析
等待时间 1 ms - 100 ms 1 min - 100 min
并发 1000 - 100,000 1 - 10
访问模式 写入和读取 读取
查询 选择 非选择性
数据范围 操做 回溯
最终用户 顾客 数据科学家
技术 NoSQL MapReduce, MPP 数据库

大数据的挑战

大数据相关的主要挑战以下:

  • 采集数据
  • 策展
  • 存储
  • 搜索
  • 分享
  • 传输
  • 分析
  • 展现

为了实现上述挑战,企业一般须要企业级服务器的帮助。

原文出自【易百教程】,商业转载请联系做者得到受权,非商业转载请保留原文连接:https://www.yiibai.com/hadoop/
相关文章
相关标签/搜索