何为敏捷大数据与敏捷AI?

摘要:敏捷大数据智能化的主要目标就是,结合敏捷大数据实施理念,研发灵活的、轻量化的智能模型,并在敏捷大数据平台上对数据流进行实时智能化处理,最终实现一站式的大数据智能分析实践。算法

1、前言

人工智能的诞生能够追溯到上世纪50年代,在达特茅斯会议上,麦卡锡提出了AI的概念,但在初期的热度事后,人工智能的发展经历了屡次低谷,直到从90年代中末期开始至今的这近二十年的时间里,人工智能才真正迎来了黄金时期。尤为是在近10年来,各方面因素都推进其不断发展:理论上,机器学习,尤为是统计学习和神经网络理论不断突破,效果显著;外部环境上,软硬件技术的进步为人工智能模型的实现提供了足够的计算能力;此外,极为重要的一个因素就是在数据方面,大数据技术的发展令人工智能终于摆脱了数据的桎梏,能够在充足的样本基础上提高模型的能力。能够说,如今各领域智能模型的研发绝大多数都离不开大数据技术的支持。网络

反过来看,人工智能对大数据技术一样有着极为重要的做用。架构

  • 一方面,对于利用大数据技术收集到的数据须要经过一些智能分析过程才能发现其中的价值;
  • 另外一方面,经过对已有数据的智能分析,咱们能够推导出更多的数据特征,甚至进一步指导数据生产的方向。

因此在今天咱们谈起大数据的利用,都不可避免地涉及到人工智能、机器学习等概念。机器学习

敏捷大数据平台栈做为一个实时数据基础设施平台,是对大数据理论与技术进一步发展的成果,天然也会有对智能化方面的研究与布局。敏捷大数据智能化的主要目标就是,结合敏捷大数据实施理念,研发灵活的、轻量化的智能模型,并在敏捷大数据平台上对数据流进行实时智能化处理,最终实现一站式的大数据智能分析实践。布局

为实现上述目标,咱们对人工智能、机器学习、实时运算等技术,以及相关业务领域知识,乃至产品用户体验都进行了深刻的研究与分析,本系列文章将把咱们的理念和在上述过程当中所得到的一些经验、成果与你们分享。性能

2、实时数据智能处理

随着技术的发展,咱们可以得到史无前例的海量数据,若是可以快速、高效地对这些数据进行处理,发现其中的高价值信息,无疑能够极大提高企业的应变能力,从而在复杂且易变的业务场景中迅速地作出战术乃至战略上的调整。所以,实时数据处理已成为将来大数据技术发展的主要方向。数据处理的实时化必然会对与数据紧密相关的智能分析模型形成影响,能够说,为了快速识别、适应外部环境的变化状况,各组织已经开始将数据实时处理能力与AI能力相结合,实现智能数据分析业务的快速交付。学习

实际上,针对实时数据流的智能化处理技术已经在不少行业中获得了先验。例如在互联网直播领域,基于视频流的实时滤镜、实时特效算法已经在快手、抖音等众多APP中广泛使用,而国外的Twitch等直播网站,也推出了实时游戏数据分析等AI插件来加强直播效果;在体育数据领域,基于实时赛况的球队、球员数据统计分析和赛况走势预测也在各体育数据提供商处,如Opta Sports等,获得了应用;在交通领域,基于实时交通讯息的路况拥堵预测系统也已经开始实施。此类例子不一而足,但都反映了实时AI数据处理已经在不一样领域、不一样业务场景下获得了普遍应用,而且发挥了不可取代的做用。测试

在金融领域的许多场景中,对于实时AI数据处理一样存在有众多需求,如实时风控、实时数据预测、实时异常检测、实时用户分析等等。下图为实时产品推荐的一个数据流图,能够用于金融产品推荐场景中,例如网贷、保险、基金、股票等产品。大数据

1.png

该图描述了以下过程:在交互端咱们能够经过埋点得到大量的、不一样用户的行为数据,这些数据将被企业实时数据平台采集,与用户、产品及其余数据一块儿提供给计算层的各种模型,如用户兴趣模型、产品画像模型等。这些模型对用户和产品进行特征刻画,最终提供给推荐模型计算、排序、过滤获得最终的推荐列表。这一过程当中咱们能够根据采集到的实时用户行为数据流对用户兴趣模型进行更新和校订,从而实现对用户所感兴趣内容的实时追踪。网站

上图没有体现的一个过程是对产品画像模型的实时更新,尽管相对用户的行为数据而言,产品的特征数据相对稳定,但在实际当中仍是有很多产品对时效性要求很高,其画像特征也须要咱们进行实时的维护,例如证券市场的数据信息等。这些产品数据流能够经过其余渠道汇总进入企业实时数据平台之中,并提供给产品画像模型进行产品特征的重构,最终提供给推荐模型进行产品推荐。一个好的实时产品推荐系统能够灵敏捕捉用户的需求、响应产品的变化,能够高效地针对用户开展个性化精准营销,提高用户体验度的同时还可以提升获客和关单数量,产生巨大的业务价值。

在上图中企业实时数据平台扮演了为推荐模型提供实时数据的重要任务。在一个敏捷的数据环境中,敏捷大数据就平台能够很好地支持上述工做,一种实现架构以下图所示:

2.png

在该图中,dbus和wormhole能够方便对接多种不一样数据源,实时获取数据,将数据pipeline源头实时化。另外wormhole支持流上处理,很适合接入产品画像模型和用户兴趣模型对产品与用户的特征进行实时刻画,这些特征通过存储后由moonbox根据须要进行抽取,输入推荐模型获得须要的推荐列表,最终返回给交互端。此外,若是加上davinci数据BI的支持,咱们还能够轻松地实现实时业务指标监控,便于咱们对推荐效果进行评估。整个过程灵活、便捷地整合了多种不一样开源平台以快速搭建实时数据应用,还能够根据须要随时切换开源选型,支持快速迭代试错,结合已有的算法模型就可以迅速支持实现智能用户产品实时推荐这一场景。

3、敏捷AI

如前文所述,在实时AI数据处理过程当中,基于敏捷大数据的各项业务组件,结合第三方的开源构件,经过简单配置便可快速编排、敏捷地实现算法运行的底层支持架构。这使得整个系统中看起来惟一的麻烦之处在于咱们还要事先开发好各类智能模型,这对于一些业务组织来讲仍是有必定的技术门槛;此外对于某些业务来讲,快速推动和成本控制才是首要考虑的因素,那么针对性地定制化开发智能算法模型,并调整调用接口使之能够接入实时数据架构之中,就显得比较笨拙。例如不少数据分析的业务人员,也许不须要太过精准的模型性能,但最好可以保证分析系统实施的便捷性、业务逻辑实现的迅捷性。

咱们已经让数据处理变得敏捷,那么如何将数据智能也变得更加敏捷呢?为了解决这一问题,咱们提出了敏捷AI的实施思路,即在现有敏捷大数据产品的基础之上,基于业务场景设计开发一系列可插拔的实时智能模型算子,这些模型涵盖了业务场景内常见的智能化数据分析需求,具备较强的通用性和复用性,可以无缝接入敏捷大数据平台上的实时数据流并向平台输出分析结果,根据须要实时流入各业务端,最终实现基于实时数据流的智能分析过程。在敏捷大数据产品和敏捷AI的支持下,业务人员能够根据业务场景快速构建从实时数据处理平台到实时数据智能分析,再到实时数据展现的整个智能化数据治理流程,并可根据效果灵活调整试错,极大下降实时智能化业务分析的实施成本。

在上述敏捷AI的实施思路下,咱们着手构建敏捷AI算法库,这是一套基于业务领域划分的轻量级通用数据模型集合。其中的每一个模型的设计应该遵循如下原则:

  • 轻量级,对模型复杂度进行适当的控制保证数据处理的实时性;
  • 独立性,尽可能减小环境依赖或保证环境的部署独立性,避免由模型引入给系统总体带来的环境依赖变更;
  • 单一性,各模型功能尽可能单一,保证各模型功能的平行性;
  • 数据普适性,除部分模型存在一些必需的特征外,各模型应保证对接入数据的广泛适应能力,经过必定的配置或映射便可以适应绝大多数的业务场景。

为了实现上述要求,咱们在研发模型时将不可避免地在某些方面作出一些取舍,例如模型若想通用必将会致使性能的必定程度降低,如何在这些矛盾中寻求一个合理的折中,也是在设计时须要考虑的问题。目前,咱们已经针对一些领域开始研发敏捷AI模型,通过实际测试与应用后,不久的未来就将整合进如今的敏捷大数据产品栈中。此外,在将来咱们还能够公布相关接口和规约,让用户也有能力将本身的模型加入到库中。

4、结语

实时数据的智能化分析是将来大数据技术和人工智能技术发展的重要方向之一,如何下降这一实施过程的经济成本、时间成本、技术成本以及变动成本,是敏捷大数据和敏捷AI着重解决的关键问题。本文结合敏捷大数据产品提出了一种解决思路,但愿咱们的产品可以帮助各组织方便、快速、灵活地构建本身的实时大数据智能分析系统。来源:宜信技术学院

做者:井玉欣

宜信技术学院

相关文章
相关标签/搜索