几分钟看懂什么是大数据?

在2012年互联网络数据中心(IDC)发布的《数字宇宙2020》中写到,2011年全球数据总量已达到1.87ZB(1ZB=十万亿亿字节),并且以每两年翻一番的速度飞快增长。预计到2020年,全球数据总量将达到35-40ZB,10年间将增长20倍以上。

大数据,它将改变人类的生活以及理解世界的方式。

 

那么,究竟什么是大数据呢?

随着科技的进步,人们逐渐告别了日出而作、日落而息的单调生活,在信息化的社会里,每时每刻都在创造着大量的数据。

数据可能包括财务电子表格、新产品的设计蓝图、客户信息、产品目录和商业机密等,更有甚者,我们日常每行走的一步都有手机软件自动记录行程,网络上的交流通过QQ、微信跨越了时空的界限,这些都是数据,但还不是大数据。

大数据,是数据的集合。

“ 

大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。

大量化,IDC预计到2020年,全球将总共拥有35ZB的数据量。

多样化,不再是单一的文本形式,订单、日志、音频,多种多样。

快速化,在海量的数据面前,处理数据的效率有着本质的区别。

价值密度低,需要通过强大的算法迅速完成数据的价值提纯。

 

 

关于大数据的思考

 

大数据究竟有多大

掌握更多的数据对于人类科学来说是一种进步, 那有助于我们认识客观世界。研究人员只是从收集到的数据中提取了1%的数据进行分析。这1%被分析的数据支配了目前的大数据创新,被称为“大数据”。“大数据”其实并不大,与反映客观事物的真实数据还有很大的差距。“人们处理的数据从样本数据变成全部数据”的结论至少从目前的数据收集和分析能力来说是不可能实现的。

 

大数据能让企业盈利吗

来源于互联网、传感器、流数据库、社会网络等方面的数据具有多样性和差异性,非常复杂,许多数据形式、结构都不同,有些数据甚至互相矛盾。数据从采集、存储到分析都是要花钱的,收集、存储数据的成本很高,分析数据的成本更高。数据挖掘项目不是一劳永逸的。模型出现偏差就不能再按原来的方案使用这个模型了,必须对模型进行调整。企业必须了解业务人员的需要,再请数据分析师帮助解决问题。

 

大数据的分析真的很准吗

科学研究实际需要的数据有可能被人们收集的海量数据所淹没。人类通过对大数据的处理,放弃对因果关系的渴求,转而关注相互联系。这一切代表着人类告别总是试图了解世界运转方式背后深层原因的态度,而走向仅仅需要弄清现象之间的联系以及利用这些信息来解决问题。数据不懂社交、不懂背景,会制造出更多噪音,遗漏真正有价值的东西,大数据无法解决大问题。在日常生活中,有很多收集不到的数据,但它们非常重要,起着决定性的作用。

 

大数据能绕过“隐私权”吗

在大数据时代,你透明的程度已经不取决于你了,你已经被大数据监控和记录了。在大数据时代,无处不在的数据采集系统使每个人都是赤裸裸的,没有隐私,无处可藏,甚至掌握大量数据的分析系统比你更了解你自己。75%的人不希望企业储存他们的个人信息,几乎90%的人反对企业跟踪他们的网络浏览记录。

 

大数据应用案例

01

奥巴马成功连任美国总统,其背后那个几十人构成的数据分析与挖掘团队至关重要。奥巴马团队筹得的第一个1亿美金中,98% 来自于小于250美金的小额捐款,而罗姆尼团队在得相同数额捐款的情况下,这一比例仅为31%。奥巴马胜选的原因不在于经济、外交政策或是妇女问题,而是赢在大数据!

02

亚马逊不仅从每个用户的购买行为中获得信息,还将每个用户在其网站上的所有行为都记录下来,这些数据的有效分析使得亚马逊对于客户的购买行为和喜好有了全方位了解,对于其货品种类、库存、仓储、物流、及广告业务上都有着极大的效益回馈。

03

谷歌在2009年,甲型H1N1流感爆发的几周前,互联网巨头谷歌公司的工程师们在《自然》杂志上发表了一篇引人注目的论文。和疾控中心一样,谷歌也能判断出流感是从哪里传播出来的,而且他们的判断非常及时,不会像疾控中心一样要在流感爆发一两周之后才可以做到。谷歌公司发现能够通过人们在网上检索的词条辨别出其是否感染了流感后,把5000万条美国人最频繁检索的词条和美国疾控中心在2003年至2008年间季节性流感传播时期的数据进行了比较。

通过一个数学模型处理后,他们的预测与官方数据的相关性高达97%。2009年甲型H1N1流感爆发的时候,与习惯性滞后的官方数据相比,谷歌成为了一个更有效、更及时的指示标。公共卫生机构的官员获得了非常有价值的数据信息。 

 

关于大数据的运用方向

 

◆ 城市规划通过对城市地理、气象等自然信息和经济、社会、文化、人口等人文社会信息的挖掘,可以为城市规划提供决策,强化城市管理服务的科学性和前瞻性。

 

◆ 交通管理通过对道路交通信息的实时挖掘,能有效缓解交通拥堵,并快速响应突发状况,为城市交通的良性运转提供科学的决策依据。

 

 舆情监控通过网络关键词搜索及语义智能分析,能提高舆情分析的及时性、全面性,全面掌握社情民意,提高公共服务能力,应对网络突发的公共事件,打击违法犯罪。

 

◆ 安防与防灾通过大数据的挖掘,可以及时发现人为或自然灾害、恐怖事件,提高应急处理能力和安全防范能力。