回想起在我刚开始攻读数据科学硕士学位的天真岁月里,任何与大数据相关的主题都会让我兴奋不已、跃跃欲试。我试图挖掘每一组数据中属于3V的一部分。_(3V:2001年麦塔集团(META Group)分析师莱尼在一份报告中对大数据提出了“3D数据管理”的观点,即认为大数据将往高速、多样、海量3个方向发展,提出了3个特性:高速性「Velocity」、多样化「Variety」、规模化「Volume」,统称3V。)_我想要从无穷无尽的数据流中提炼出可供分析的数据,而后去建模、制做数据可视化、进行数据转换等等。但时间来到当下,往往看到“大数据”这3个字,总会不自觉地让我扬起眉毛,心里不断地猜测接下来又会出现的是哪个一样“流行”又“模糊”的科技热词呢?安全
我最近对于一些互联网看上去“高大上”的话变得十分敏感。好比“让大数据为数字化时代赋能”,这句话看上去真的很酷!但它的意义是什么呢?面对现实生活中受困于Excel表格、沮丧却不得不人手缓慢运算过程的企业或我的,这句很“酷”的话到底是想要表达什么?服务器
大数据使人感到兴奋是由于它表明了一种巨大的财富,你能够在其中搜索、查找并使用对你有价值的任何东西。我最初对于大数据的见解是认为“在全部这些数据中,确定有什么深层含义是咱们绝对想知道的”。我这种想法或许是对的,但要从大量数据中找到那些有价值的东西,咱们要付出什么代价呢?网络
在处理大数据以前,咱们须要先搭建好数据处理的基本架构,以确保整个系统拥有强大的计算能力、存储能力、以及数据传输等能力。这一般须要花费一笔庞大的开支,同时,还会遇到各类意想不到的瓶颈。随着云平台的发展,虽然计算能力变得更加便宜和易于使用,但随着云存储的指数级增加,云计算的平常使用甚至本地服务器的维护都是一笔不小的开销。所以,这里也出现了一个本世纪颇有意思的迷思:架构
有时候,对某些企业/我的而言像黄金同样的数据,于另外一些企业/我的而言就是浪费整个存储空间和算力的垃圾。大数据
目前的现状是,不少公司都是先花钱挖掘数据,而后再回过头来看哪些数据是真的有用的。那若是咱们在收集数据以前就优先肯定数据是否有用,这样会更高效、节能一些吗?云计算
数据科学界有句话叫“无用输入再无效输出”。确实,在实际应用中有不少数据其实是不可靠且须要下很大功夫清理才能被使用的数据。并且,时常出现的状况是,咱们花费了大量精力、时间和金钱却只能在庞大的数据集中找到少许信息。spa
就像Forrester报告中说的那样“企业中至少有60%的闲置数据”。rest
企业何不将用于存储闲置数据的钱用来搭建正确的数据处理架构呢?blog
人们已经意识到,不是每个数据特性都是有用的(有些甚至可能有害),数据的质量每每比数量更加剧要。咱们更但愿数据可以以可靠、一致的方式来呈现咱们关心的事情。而这一认知也会更好地将咱们领入一个可解释的、负责任的和安全的关于AI的研究探索阶段。生命周期
总结一下……
当下,咱们已经意识到了数据的重要性,而以后,咱们须要作的是搭建更完善的基础架构从而更安全地使用、共享、分析数据,而且可以更加精准地区分无用数据和有价值的信息。咱们还须要确保数据的质量和可靠性,确保全世界均可以使用它们并理解其中涵义(这对于将来AI的研究也尤其重要)。最后我想说的是,数据最根本的价值不在于庞大,而在于可靠和有效。
Bye~“大”数据
有效且可靠将为数据迎来更长的生命周期!
这话听起来没那么酷,但更可爱也更让人安心了,不是吗?
原文连接:https://towardsdatascience.com/bye-bye-big-data-fbea187c7739
点击“阅读”了解更多精彩内容!
以上信息来源于网络,由“京东智联云开发者”公众号编辑整理,不表明京东智联云立场