大数据技术的核心是什么?前端
面对这个问题,相信你们都会回答是大数据分析系统。程序员
大数据分析系统从海量类型多样、增加快速、内容真实的数据背后挖掘、分析,从中找出能够帮助决策的价值信息,未知的单方/双方/多方关系,并结合用户需求有针对性地进行调整和优化。算法
今天,大数据分析系统已然扎根于各行各业,对信息安全、社会经济生活、民生等起着十分重要的做用。可是,在它繁荣兴盛的背后,又存在着哪些无奈呢?咱们一块儿来梳理一下。数据库
1、系统组件太多,孤岛状况突出,运维和安全成本过高编程
目前,不少大数据分析系统的架构是这样的。安全
第一层,数据采集与整合层,由双向/单向数据同步系统、分布式消息总线Kafka、数据集成系统ETL组成。网络
第二层,大数据存储与分析层,由分布式文件系统、分布式数据库系统做为存储组件,开源大数据计算框架Spark、Storm等做为分析工具。架构
第三层,服务与接口层,部署SOA架构的服务总线系统以及大数据工具的集合。框架
第四,应用层,由各种自主研发的UI应用系统构成。运维
这种系统架构就像一个拼接的魔方,它既庞大又复杂。
IT资源种类及其数量不断增多,网络形态更加复杂。一方面给运维工做带来巨大的压力和挑战,另外一方面在实现数据资源共享和挖掘潜在价值方面,也暴露出包含大量敏感和重要信息的数据资源被泄露和非法利用的风险。
2、没法深度融合人工智能AI与商业智能BI的优点
目前,市面上优秀的大数据分析系统比较多,能够将其划分为两类:
第一类,以MapReduce和Spark计算框架等为表明的高性能分析系统,以各类高性能处理算法、智能搜索与挖掘算法等为主要研究内容,也是大数据分析的研究主流。
第二类,以大数据可视化分析(isual analytics of big data)为主要表明(好比,Tableau),主要以人机交互为主,强调以人做为分析主体,结合各种精美的可视化图表进行分析。
可见,第一类系统侧重于AI,第二类系统侧重于BI,他们各有特点,但并未深刻的相互融合。
虽然,目前一些商业智能系统已开始整合AI功能,但并未深刻融合AI技术,所以难以全面地支持人工智能。同时,大数据自己的新特色和多元化的用户分析需求,也对AI与BI提出了更为迫切的需求与更加严峻的挑战。
3、非轻量级交互式编程语言,学习成本高且不利于交互分析
数据分析是一项须要具有较高的知识与技能的工做,除了要熟悉行业知识,掌握数学和统计学的方法外,还须要掌握一门分析编程语言才能驾驭大规模的海量数据!
经常使用的可编程分析语言有R语言、Spark、MATLAB等。这此语言由变量、赋值语句、表达式、控制语句等构成指令序列,有比较复杂的保存和编译过程。
第一,没法逐句执行,不能执行一条输出一个结果。很是不利于分析师定位错误,进行数据探索。
第二,不能灵活组合多种原语,没法将复杂的数据分析场景简单化,更适合于有编程经验的程序员,学习和入门门槛高。
4、可视化大屏只能看,不能交互
当数据驱动决策的大潮来袭后,对海量数据进行高效分析后,可以进行多维度的高清展现就成为每个决策者心中的期待!为了这份期待,不少数据公司提供了创造性的呈现方式及内容(美仑美奂的高清展现大屏、划分清晰而完整的主题)。即使如此,在一些方面仍不能知足用户的需求。
第一,数据大屏的信息量太大,没法让用户迅速聚焦重点。
第二,没法快速了解多个屏幕在总体上的布局状况,当须要寻找某一具体信息时,不能经过缩略布局图快速返回。
第三,目前大屏信息量较大,虽有划分主题,但在宏观上仍是很差区分。快速定位的问题仍有待解决。
第四,不能有效地下钻连接内容。
第五,同屏及多屏互动功能还处于空白阶段。
抛开现象看本质,可视化是表象,分析内核才是灵魂。若是表现形式不能很好地反映内在,即便作的再精美也是难以发挥价值的。
5、定制化需求太多,实施成本过高,要赚钱很难
首先,大数据开源技术的蓬勃兴盛造就了大数据行业的低门槛,愈来愈多的IT公司正在或打算从事大数据业务,形成了激烈的行业竞争。可是开源技术虽然成熟,应用普遍,但若是要做为商用,承担大任,就会存在如何根据用户基础架构和数据特色,进行开源组件优化和二次开发的问题。而开源技术存在涉及面广、版本更新快的问题,对技术开发能力的要求是比较高的,没法普适于通常的数据分析师。
其次,定制化需求比较多。大数据时代,如何用数据充分挖倔价值是王道。每一个客户可能都有着不同的分析需求,不能用一款产品定制出多元化的项目是痛中之痛。
再次,咱们知道作一个大数据分析项目的大体流程是这样的:
需求分析 → 部署Hadoop/Spark等平台 → 数据处理ETL → 数据探索,构建模型 → 开发可视化界面 → 交互测试 。
能够看出,过程长而复杂,这就对开发人员提出了很高的要求。要求基础平台搭建工程师,拥有HADOOP、SPARK、ELK、Sqoop、UTL、关系型数据库等技能;要求后台开发工程师,拥有J2EE/XML/Web Servie、Map/Recude、Spark Driver、Spark streaming等技能;要求分析和数据挖掘工程师,拥有Hive/Impala/Spark SQL、spark MLLib/graphx、Matlab、ES QueryDSL/ESQL等技能;要求前端开发工程师,拥有HTML5\CSS三、JavaScript、JQuery\Bootstrap、Echars\D3.js等技能。一个项目须要这么多的人力成本,且对技能的要求如此之高,让项目管理负重而行。
以上问题共同形成了用户的哀伤,如何解决,才能截然不“痛”呢?
下篇,OpenFEA将给出解决方案,敬请期待!
另外,以上总结概括,若是您以为还未击中用户痛点,欢迎在留言区补充,咱们继续讨论。若是您觉这些问题有点以偏盖全,也请留言,咱们共同探讨,一块儿提升大数据分析系统的实用价值,为民族大数据分析产品的发展贡献力量。