大数据的大规模应用如今仍然处于起步阶段,但却已经带给咱们这个时代巨大的改变与机遇。用狄更斯《生存记》中的一句话” 这是一个最好的时代, 也是一个最坏的时代”来描述今天大数据的发展示状,再贴切不过了。算法
第三次信息化浪潮让大数据正式的进入人们的视野。而今年来在存储、计算、网络方面的迅速发展,硬件设备的成本在下降,而性能却反过来在大幅度提高,其发展速度已经大大超过了摩尔定律
,这为大数据时代的到来提供了良好的技术支撑。安全
有人说是自媒体的推进了大数据时代的到来。其实否则,自媒体是让这个时代可以听到每个普通的民众的声音,让那个由精英掌控社会主流文化的时代一去不复返,自媒体时代成就了网红,而不是大数据。
而直到物联网(IoT)的兴起,各类传感器、摄像头等每时每刻都在产生数据,是咱们进入一个信息爆炸的时代,这些数据已经超出咱们人所能控制的范畴。网络
数据量大(Volume):第一个特征是数据量大,包括采集、存储和计算的量都很是大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。分布式
类型繁多(Variety):第二个特征是种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。工具
价值密度低(Value):第三个特征是数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵。随着互联网以及物联网的普遍应用,信息感知无处不在,信息海量,但价值密度较低,如何结合业务逻辑并经过强大的机器算法来挖掘数据价值,是大数据时代最须要解决的问题。性能
速度快时效高(Velocity):第四个特征数据增加速度快,处理速度也快,时效性要求高。好比搜索引擎要求几分钟前的新闻可以被用户查询到,个性化推荐算法尽量要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。大数据
数据是在线的(Online):数据是永远在线的,是随时能调用和计算的,这是大数据区别于传统数据最大的特征。如今咱们所谈到的大数据不单单是大,更重要的是数据变的在线了,这是互联网高速发展背景下的特色。好比,对于打车工具,客户的数据和出租司机数据都是实时在线的,这样的数据才有意义。若是是放在磁盘中并且是离线的,这些数据远远不如在线的商业价值大。优化
1.全样而非抽样:
以往数据量庞大,没法储存和分析,统计学只能采用抽样。目前大数据技术的发展,储存、计算设备的成本不断的下降。咱们有足够的储存空间,咱们的计算也不单单局限于一台计算设备之上。咱们彻底可以使用分布式系统进行储存,使用成千上万个CPU进行计算。搜索引擎
2.效率而非精确:
以往作抽样分析,人们必须不断地追求算法的精度,由于一旦咱们将抽样计算的结果,运用到全样之后,偏差将会被放大。而使使用大数据技术,因为直接拿全样作分析,所以不用刻意追求精确性。而不少数据都具备时效性,所以,更关注效率。spa
3.相关而非因果:
大数据时代,咱们更加关注数据之间的联系,而这种相关性就可以使数据产生价值。好比:推荐系统。
转载自BigData4All