Intuit数据工程副主管Loconzolo双脚都已经迈进数据湖里了。Smarter Remarketer首席数据科学家DeanAbbott也为云技术的发展指出了捷径。他们二人一致认为, 大数据与分析学前沿是个活动目标,这一领域包含了储存原始数据的数据湖和云计算。尽管这些技术并未成熟,但等待也并不是上策。算法
Loconzolo表示:“现实的状况是,这些工具都刚刚兴起,他们构筑的平台还不足以让企业依赖。可是,大数据和分析学等学科发展十分迅速,所以企业必须努力跟上,不然就有被甩掉的危险。”他还说:“过去,新兴技术每每须要十年左右的时间才可以成熟,可是如今大大不一样了,人们几个月甚至几周时间就能想出解决方案。”那么,有哪些新兴技术是咱们应该关注,或者说科研人员正在重点研究的呢?《电脑世界》采访了一些IT精英、咨询师和行业分析专家,来看看他们列出的几大趋势吧。数据库
在这里仍是要推荐下我本身建的大数据学习交流群:784557197,群里都是学大数据开发的,若是你正在学习大数据 ,小编欢迎你加入,你们都是软件开发党,不按期分享干货(只有大数据软件开发相关的),包括我本身整理的一份2018最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深刻大数据的小伙伴加入。安全
Hadoop是一组有必定框架结构的工具,用来处理大型数据组。它本来用于机器群,但如今状况有所变化。Forrester Research一位分析师BrianHopkins表示,如今有愈来愈多的技术能够运用到云端数据处理上来了。好比亚马逊的BI数据库、Google的 BigQuery数据分析服务,、IBM’sBluemix 云平台和亚马逊的Kinesis数据处理服务。这位分析师还说,将来的大数据将是内部数据部署与云端数据的结合体。网络
Smarter Remarketer是SaaS零售分析、市场细分和营销服务的供应商,它最近将本身室内的Hadoop和MongoDB数据库基础设施转移到了一个基于云技术的数据库—Amazon Redshift. 这家位于印第安纳波利斯的公司收集线上和实体销售数据、顾客信息和实时行为数据,以后进行分析,从而帮助零售商作出针对消费者的决策,有些决策甚至是实时的。框架
Abbott表示,Redshift能够节省这家公司的成本,这是由于它对于结构数据拥有强大的汇总报告功能,并且它颇具规模,使用起来相对容易。用这些虚拟设备老是要比那些实体设备便宜一些。机器学习
相比之下,位于加州山景城的Intuit在走向云分析的过程当中就要谨慎多了,由于它须要一个安全、稳定、可控的环境。目前为止,这家金融软件公司的数据都还在自家的数据库—Intuit Analytics Cloud里面。Loconzolo表示:“目前咱们正跟亚马逊还有Cloudera合做,创建一个咱们几家公司公用的能跨越虚拟、现实两个世界的、具备高度稳定性的云端,可是如今这个问题尚未获得解决。”然而,能够说,对于像Intuit这种销售云端产品的公司来讲,向云端技术进军是必然的。Loconzolo还说道,将来咱们会发展到一个阶段,那时把数据放在私有云端将是浪费的。分布式
Hopkins表示,向MapReduce这样的分布式分析框架,正在逐渐演化成分布式资源管理器,这些资源管理器正逐步将Hadoop变为多用途数据运行系统。“有了这些系统,你就能够进行多种多样的操做和分析。”工具
这对企业来讲意味着什么呢?SQL、MapReduce、in-memory、流水式处理、图表分析还有其它工做都能在Hadoop上进行,愈来愈多的企业会把Hadoop当作企业数据中心。Hopkins还说:“在Hadoop上能进行各类各样的数据处理工做,这样的话,Hadoop会慢慢变成一个多用途的数据处理系统。”oop
Intuit已经开始在Hadoop创建本身的数据基地了。Loconzolo说:“咱们的策略是利用Hadoop分布式文件系统,由于它和MapReduce与Hadoop等联系十分密切,这样的话,人与产品之间的各类互动就能够实现了。性能
美国普华永道首席技术专家Chris Curran说,传统数据库理论认为,人们应该先设计数据集,而后再将数据输入进去。而“数据湖泊“,也被称做“企业数据湖泊”或者“企业数据中心”,颠覆了这个理念。“如今,咱们先收集数据,而后把它们都存入Hadoop仓库里,咱们没必要事先设计数据模型了。”这个数据湖泊不只为人们提供了分析数据的工具,并且很明确地告诉你,这里有什么样的数据。Curran还表示,运用Hadoop的过程当中人们就能够增长对数据的认识。这是一个递增的、有机的大规模数据库。固然,这样一来,对使用者的技术要求相应地会比较高。
Loconzolo表示,Intuit拥有本身的数据湖泊,这个数据湖里既有用户点击量的数据,也有企业和第三方的数据,全部这些都是Intuit分析云端的一部分,但关键是要让围绕这个数据湖的工具可以为人们有效利用起来。Loconzolo还说,对于在Hadoop创建数据湖,一个须要考虑的问题是,这个平台并无完彻底全的为企业的需求设置周全。“咱们还须要传统企业数据库已经有了几十年的一些功能,好比监控访问控制、加密、安全性以及可以从源头到去向地追踪数据等等。
Hopkins表示,有了大数据,分析师们不只有了更多的数据能够利用,也拥有了更强大的处理打量不一样属性数据的能力。
他说:“传统的机器学习利用的数据分析是创建在一个大数据集中的一个样本基础上的,而如今,咱们拥有了处理了大量数字记录的能力,甚至于每条数据有多种不一样属性,咱们都应对自如。”
大数据与计算功能的结合也让分析师们可以挖掘人们一天中的行为数据,比如他们访问的网站或者是去过的地方。Hopkins把这些数据称做“稀少数据(sparsedata)”,由于要想获得这些你感兴趣的数据,必须过滤掉一大堆无关的数据。“要想用传统机器算法对抗这种数据,从计算角度来说几乎不可能。由于计算能力是一个十分重要的问题,特别是如今传统算法的速度和记忆储存能力退化很快。而如今你能够很容易知道哪些数据是最容易分析的,不得不说,赛场易主了。”
Loconzolo表示:“咱们最感兴趣的地方是,怎样在同一个Hadoop内核中既能做实时分析,又能作预测模型。这里最大的问题在于速度。Hadoop花费的时间要比现有技术长20倍,因此Intuit也在尝试另外一个大规模数据处理器Apache Spark及其配套的 Spark SQL查询工具。Loconzolo说:“Spark具备快速查询、制表服务和分组功能。它能在把数据保留在Hadoop内部的前提下,还将数据处理得十分出色。”
Gartner一位分析师表示,若是你是个不错的编码员或者数学家,你能够把数据丢进Hadoop,想作什么分析就作什么分析,这是好处,但同时这也是个问题。“尽管任何程序语言都行得通,但我须要有人把这些数据用我熟悉的形式或者语言输入进去,这也是为何咱们须要Hadoop的结构化查询语言。支持与SQR相似的查询语言的工具,让那些懂得SQR的企业使用者们能把相似的技术运用在数据上。Hopkins认为,Hadoop的SQR打开了企业通往Hadoop的大门,由于有了SQR,企业不须要在那些能使用Java, JavaScript 和Python高端数据和商业分析师上投资了,而这些投资在之前但是少不了的一笔开销。
这些工具也并不是最近才出现的了。Apache Hive曾经为用户提供了一种适用于Hadoop、相似于SQR的查询语言,可是竞争对手Cloudera、PivotalSoftware、IBM还有其余销售商提供的产品不只性能更好,速度也更快。这项技术也适合“迭代分析(iterative analytics)”,也就是说,分析师先问一个问题,获得回答以后再问下一个问题。而这种工做放在过去但是须要创建一个数据库的。Hopkins说:“Hadoop的SQR并非为了取代数据库,最起码短时间不会,但对于某些分析来讲,它让咱们知道,除了那些高成本的软件和应用以外,还有别的选择。”
Curran表示,如今咱们除了基于SQR的传统的数据库以外,还有NoSQL,这个数据库能用于特定目的的分析,当下十分热门,并且估计会愈来愈受欢迎。他粗略估计目前大概有15-20个相似的开放资源NoSQL,每个都独具特点。好比ArangoDB,这是一款具有图标分析功能的产品,能更快、更直接地分析顾客与销售人员之间的关系网。
Curran还说,开放资源的NoSQL数据库已经存在一段时间了,可是他们依然势头不减,由于人们须要它们所作的分析。一位在某个新兴市场的普华永道客户把传感器按在了店面柜台上,这样就能监控到那里到底有什么产品,顾客会摆弄这些产品多长时间以及人们会在柜台前站多久。“传感器会产生大量相似指数增加的数据,NoSQL将是将来的一个发展方向,由于它能够针对特定目的进行数据分析,性能好,并且很轻巧。”
Hopkins认为,做为一种基于神经网络的机械学习技术,虽然还在发展过程当中,但在解决问题方面却已经表现出巨大的潜力。“深度学习……可以让计算机在大量非结构化和二进制的数据中识别出有用信息,并且它可以在不须要特殊模型和程序指令的前提下就剔除那些没必要要的关系。”
举个例子说明:一个深度学习的算法经过维基百科了解到加利福尼亚和德克萨斯是美国的两个州。“咱们不在须要经过模式化让程序去理解州和国家的概念,这就是原来的机械学习和新兴深度学习的区别之一。”
Hopkins还说道:“大数据运用先进的分析技术,例如深度分析,来处理各类各样的非结构文本,这些处理问题的思路和方式,咱们也是如今才开始理解。”好比,深度学习能够用来识别各类各样不一样的数据,好比形状、颜色和录像中的物体,甚至是图片中的猫—谷歌创建的神经网络就作到了这一点。“这项技术所昭示的认知理念、先进的分析,将是将来的一个趋势。”
Beyer表示,利用内存中数据库来提高分析处理速度,这种方式已经愈来愈普遍,并且只要运用得当,益处也不少。事实上,不少企业如今已经在利用HTAP(hybridtransaction/analytical processing)了,这种处理方式能在同一个内存数据库中进行转换和分析处理。但Beyer同时也表示,对于HTAP的宣传有些过头了,不少公司也过分利用这项技术。对于那些使用者须要天天屡次以一样的方式看一样数据的系统来讲,这样的数据没有太大变化,这时用内存中分析就是一种浪费了。
虽然有了HTAP的帮助,人们分析速度更快了,可是,全部的转换都必须储存在同一个数据库里。Beyer认为,这样的特色就产生了一个问题,分析师们目前的工做主要是把不一样地方的数据汇总输入到同一个数据库当中去。“若是你想作任何分析都运用HTAP,全部的数据就得存在同一个地方。要把多样化的数据进行整合。”
然而,引入内存数据库的同时也意味着,还有另外一个产品等着咱们去管理、维护、整合与权衡。
对于Intuit而言,他们已经在使用Spark了,因此对引进内存数据库的愿望并无那么强烈。Loconzolo说:“若是咱们用Spark就能处理70%的问题,而用内存数据库能够解决100%,那么咱们还会选择前者。因此咱们如今也在权衡,要不要立刻停用内部的内存数据系统。”
大步向前迈
在大数据和分析领域有这么多的新兴趋势,IT组织应该创造条件,让分析师和数据专家们大显身手。Curran认为:“咱们须要评估、整合一些技术,从而把它们运用到商业领域中去。”
Beyer则认为:“IT管理者和执行者们不能把技术不成熟做为中止试验的借口。”最初只有一部分专业分析师和数据专家须要试验,而后这些比较高级的使用者和IT行业应该共同决定是否要把这些新的资源介绍给行业其余人。IT界也不必控制那些鼓足干劲的分析师们,相反,Beyer认为应该与他们增强合做。