大数据介绍

原文地址:http://bbs.pinggu.org/bigdata/前端

大数据概念

"大数据"是一个体量特别大,数据类别特别大的数据集,而且这样的数据集没法用传统数据库工具对其内容进行抓取、管理和处理。算法

   "大数据"首先是指数据体量(volumes)?大,指代大型数据集,通常在10TB?规模左右,但在实际应用中,不少企业用户把多个数据集放在一块儿,已经造成了PB级的数据量;    数据库

  其次是指数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了之前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。  bootstrap

  接着是数据处理速度(Velocity)快,在数据量很是庞大的状况下,也可以作到数据的实时处理。安全

  最后一个特色是指数据真实性(Veracity)高,随着社交数据、企业内容、交易与应用数据等新数据源的兴趣,传统数据源的局限被打破,企业愈发须要有效的信息之力以确保其真实性及安全性。网络

  "大数据"是须要新处理模式才能具备更强的决策力、洞察发现力和流程优化能力的海量、高增加率和多样化的信息资产。从数据的类别上看,"大数据"指的是没法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。架构

大数据的分析

从所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有经过分析才能获取不少智能的,深刻的,有价值的信息。那么愈来愈多的应用涉及到大数据,而这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增加的复杂性,因此大数据的分析方法在大数据领域就显得尤其重要,能够说是决定最终信息是否有价值的决定性因素。基于如此的认识,大数据分析广泛存在的方法理论有哪些呢?并发

大数据分析的五个基本方面:负载均衡

一、可视化分析(Analytic Visualizations)机器学习

大数据分析的使用者有大数据分析专家,同时还有普通用户,可是他们两者对于大数据分析最基本的要求就是可视化分析,由于可视化分析可以直观的呈现大数据特色,同时可以很是容易被读者所接受,就如同看图说话同样简单明了。

二、数据挖掘算法(Data Mining Algorithms)

大数据分析的理论核心就是数据挖掘算法,各类数据挖掘的算法基于不一样的数据类型和格式才能更加科学的呈现出数据自己具有的特色,也正是由于这些被全世界统计学家所公认的各类统计方法(能够称之为真理)才能深刻数据内部,挖掘出公认的价值。另一个方面也是由于有这些数据挖掘的算法才能更快速的处理大数据,若是一个算法得花上好几年才能得出结论,那大数据的价值也就无从提及了。

三、预测性分析能力(Predictive Analytic Capabilities

大数据分析最终要的应用领域之一就是预测性分析,从大数据中挖掘出特色,经过科学的创建模型,以后即可以经过模型带入新的数据,从而预测将来的数据。

四、语义引擎(Semantic Engines)

大数据分析普遍应用于网络数据挖掘,可从用户的搜索关键词、标签关键词、或其余输入语义,分析,判断用户需求,从而实现更好的用户体验和广告匹配。

五、数据质量和数据管理(Data Quality and Master Data Management)

大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,不管是在学术研究仍是在商业应用领域,都可以保证分析结果的真实和有价值。 大数据分析的基础就是以上五个方面,固然更加深刻大数据分析的话,还有不少不少更加有特色的、更加深刻的、更加专业的大数据分析方法。

大数据技术

数据采集:ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
数据存取:关系数据库、NOSQL、SQL等。
基础架构:云存储、分布式文件存储等。
数据处理:天然语言处理(NLP,NaturalLanguageProcessing)是研究人与计算机交互的语言问题的一门学科。处理天然语言的关键是要让计算机"理解"天然语言,因此天然语言处理又叫作天然语言理解(NLU,NaturalLanguage Understanding),也称为计算语言学(Computational Linguistics。一方面它是语言信息处理的一个分支,另外一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。
统计分析:假设检验、显著性检验、差别分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。
数据挖掘:分类 (Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering)、描述和可视化、Description and Visualization)、复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)
模型预测:预测模型、机器学习、建模仿真。
结果呈现:云计算、标签云、关系图等。

大数据特色

要理解大数据这一律念,首先要从"大"入手,"大"是指数据规模,大数据通常指在10TB(1TB=1024GB)规模以上的数据量。大数据同过去的海量数据有所区别,其基本特征能够用4个V来总结(Vol-ume、Variety、Value和Veloc-ity),即体量大、多样性、价值密度低、速度快。
  第一,数据体量巨大。从TB级别,跃升到PB级别。
  第二,数据类型繁多,如前文提到的网络日志、视频、图片、地理位置信息,等等。
  第三,价值密度低。以视频为例,连续不间断监控过程当中,可能有用的数据仅仅有一两秒。
  第四,处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不一样。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍及地球各个角落的各类各样的传感器,无一不是数据来源或者承载的方式。
  大数据技术是指从各类各样类型的巨量数据中,快速得到有价值信息的技术。解决大数据问题的核心是大数据技术。目前所说的"大数据"不只指数据自己的规模,也包括采集数据的工具、平台和数据分析系统。大数据研发目的是发展大数据技术并将其应用到相关领域,经过解决巨量数据处理问题促进其突破性发展。所以,大数据时代带来的挑战不只体如今如何处理巨量数据从中获取有价值的信息,也体如今如何增强大数据技术研发,抢占时代发展的前沿。

当下我国大数据研发建设应在如下四个方面着力

一是创建一套运行机制。大数据建设是一项有序的、动态的、可持续发展的系统工程,必须创建良好的运行机制,以促进建设过程当中各个环节的正规有序,实现统合,搞好顶层设计。
二是规范一套建设标准。没有标准就没有系统。应创建面向不一样主题、覆盖各个领域、不断动态更新的大数据建设标准,为实现各级各种信息系统的网络互连、信息互通、资源共享奠基基础。
三是搭建一个共享平台。数据只有不断流动和充分共享,才有生命力。应在各专用数据库建设的基础上,经过数据集成,实现各级各种指挥信息系统的数据交换和数据共享。
四是培养一支专业队伍。大数据建设的每一个环节都须要依靠专业人员完成,所以,必须培养和造就一支懂指挥、懂技术、懂管理的大数据建设专业队伍。

大数据处理

周涛:大数据处理数据时代理念的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。

具体的大数据处理方法确实有不少,可是根据笔者长时间的实践,总结了一个广泛适用的大数据处理流程,而且这个流程应该可以对你们理顺大数据的处理有所帮助。整个处理流程能够归纳为四步,分别是采集、导入和预处理、统计和分析,最后是数据挖掘。

大数据处理之一:采集

  大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的数据,而且用户能够经过这些数据库来进行简单的查询和处理工做。好比,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此以外,Redis和MongoDB这样的NoSQL数据库也经常使用于数据的采集。
  在大数据的采集过程当中,其主要特色和挑战是并发数高,由于同时有可能会有成千上万的用户来进行访问和操做,好比火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,因此须要在采集端部署大量数据库才能支撑。而且如何在这些数据库之间进行负载均衡和分片的确是须要深刻的思考和设计。

大数据处理之二:导入/预处理

  虽然采集端自己会有不少数据库,可是若是要对这些海量数据进行有效的分析,仍是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,而且能够在导入基础上作一些简单的清洗和预处理工做。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来知足部分业务的实时计算需求。
  导入与预处理过程的特色和挑战主要是导入的数据量大,每秒钟的导入量常常会达到百兆,甚至千兆级别。

大数据处理之三:统计/分析

  统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以知足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可使用Hadoop。
  统计与分析这部分的主要特色和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。

大数据处理之四:挖掘

  与前面统计和分析过程不一样的是,数据挖掘通常没有什么预先设定好的主题,主要是在现有数据上面进行基于各类算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具备Hadoop的Mahout等。该过程的特色和挑战主要是用于挖掘的算法很复杂,而且计算涉及的数据量和计算量都很大,经常使用数据挖掘算法都以单线程为主。  整个大数据处理的广泛流程至少应该知足这四个方面的步骤,才能算得上是一个比较完整的大数据处理。