敏捷大数据与敏捷AI有什么不一样的

前言

人工智能的诞生可以追溯到上世纪50年代，在达特茅斯会议上，麦卡锡提出了AI的概念，但在初期的热度过后，人工智能的发展经历了多次低谷，直到从90年代中末期开始至今的这近二十年的时间里，人工智能才真正迎来了黄金时期。尤其是在近10年来，各方面因素都推动其不断发展：理论上，机器学习，尤其是统计学习和神经网络理论不断突破，效果显著；外部环境上，软硬件技术的进步为人工智能模型的实现提供了足够的计算能力；此外，极为重要的一个因素就是在数据方面，大数据技术的发展使人工智能终于摆脱了数据的桎梏，可以在充足的样本基础上提升模型的能力。可以说，现在各领域智能模型的研发绝大多数都离不开大数据技术的支持。

反过来看，人工智能对大数据技术同样有着极为重要的作用。一方面，对于利用大数据技术收集到的数据需要通过一些智能分析过程才能发现其中的价值；另一方面，通过对已有数据的智能分析，我们可以推导出更多的数据特征，甚至进一步指导数据生产的方向。所以在今天我们谈起大数据的利用，都不可避免地涉及到人工智能、机器学习等概念。

敏捷大数据平台栈作为一个实时数据基础设施平台，是对大数据理论与技术进一步发展的成果，自然也会有对智能化方面的研究与布局。敏捷大数据智能化的主要目标就是，结合敏捷大数据实施理念，研发灵活的、轻量化的智能模型，并在敏捷大数据平台上对数据流进行实时智能化处理，最终实现一站式的大数据智能分析实践。

为实现上述目标，我们对人工智能、机器学习、实时运算等技术，以及相关业务领域知识，乃至产品用户体验都进行了深入的研究与分析，本系列文章将把我们的理念和在上述过程中所获得的一些经验、成果与大家分享。

实时数据智能处理

如本公众号之前一系列文章所述，随着技术的发展，我们能够获得前所未有的海量数据，如果能够快速、高效地对这些数据进行处理，发现其中的高价值信息，无疑可以极大提升企业的应变能力，从而在复杂且易变的业务场景中迅速地做出战术乃至战略上的调整。因此，实时数据处理已成为未来大数据技术发展的主要方向。数据处理的实时化必然会对与数据紧密相关的智能分析模型造成影响，可以说，为了快速识别、适应外部环境的变化情况，各组织已经开始将数据实时处理能力与AI能力相结合，实现智能数据分析业务的快速交付。

实际上，针对实时数据流的智能化处理技术已经在很多行业中得到了先验。例如在互联网直播领域，基于视频流的实时滤镜、实时特效算法已经在快手、抖音等众多APP中普遍使用，而国外的Twitch等直播网站，也推出了实时游戏数据分析等AI插件来增强直播效果；在体育数据领域，基于实时赛况的球队、球员数据统计分析和赛况走势预测也在各体育数据提供商处，如Opta Sports等，得到了应用；在交通领域，基于实时交通信息的路况拥堵预测系统也已经开始实施。此类例子不一而足，但都反映了实时AI数据处理已经在不同领域、不同业务场景下得到了广泛应用，并且发挥了不可取代的作用。

在金融领域的许多场景中，对于实时AI数据处理同样存在有众多需求，如实时风控、实时数据预测、实时异常检测、实时用户分析等等。下图为实时产品推荐的一个数据流图，可以用于金融产品推荐场景中，例如网贷、保险、基金、股票等产品。

该图描述了如下过程：在交互端我们可以通过埋点获得大量的、不同用户的行为数据，这些数据将被企业实时数据平台采集，与用户、产品及其他数据一起提供给计算层的各类模型，如用户兴趣模型、产品画像模型等。这些模型对用户和产品进行特征刻画，最终提供给推荐模型计算、排序、过滤得到最终的推荐列表。这一过程中我们可以根据采集到的实时用户行为数据流对用户兴趣模型进行更新和校正，从而实现对用户所感兴趣内容的实时追踪。上图没有体现的一个过程是对产品画像模型的实时更新，尽管相对用户的行为数据而言，产品的特征数据相对稳定，但在实际当中还是有不少产品对时效性要求很高，其画像特征也需要我们进行实时的维护，例如证券市场的数据信息等。这些产品数据流可以通过其他渠道汇总进入企业实时数据平台之中，并提供给产品画像模型进行产品特征的重构，最终提供给推荐模型进行产品推荐。一个好的实时产品推荐系统可以灵敏捕捉用户的需求、响应产品的变化，可以高效地针对用户开展个性化精准营销，提升用户体验度的同时还能够提高获客和关单数量，产生巨大的业务价值。

在上图中企业实时数据平台扮演了为推荐模型提供实时数据的重要任务。在一个敏捷的数据环境中，敏捷大数据就平台可以很好地支持上述工作，一种实现架构如下图所示：

在该图中，dbus和wormhole可以方便对接多种不同数据源，实时获取数据，将数据pipeline源头实时化。另外wormhole支持流上处理，很适合接入产品画像模型和用户兴趣模型对产品与用户的特征进行实时刻画，这些特征经过存储后由moonbox根据需要进行抽取，输入推荐模型得到需要的推荐列表，最终返回给交互端。此外，如果加上davinci数据BI的支持，我们还可以轻松地实现实时业务指标监控，便于我们对推荐效果进行评估。整个过程灵活、便捷地整合了多种不同开源平台以快速搭建实时数据应用，还可以根据需要随时切换开源选型，支持快速迭代试错，结合已有的算法模型就能够迅速支持实现智能用户产品实时推荐这一场景。

敏捷AI

如前文所述，在实时AI数据处理过程中，基于敏捷大数据的各项业务组件，结合第三方的开源构件，通过简单配置即可快速编排、敏捷地实现算法运行的底层支持架构。这使得整个系统中看起来唯一的麻烦之处在于我们还要事先开发好各种智能模型，这对于一些业务组织来说还是有一定的技术门槛；此外对于某些业务来说，快速推进和成本控制才是首要考虑的因素，那么针对性地定制化开发智能算法模型，并调整调用接口使之可以接入实时数据架构之中，就显得比较笨拙。例如很多数据分析的业务人员，也许不需要太过精准的模型性能，但最好能够保证分析系统实施的便捷性、业务逻辑实现的迅捷性。我们已经让数据处理变得敏捷，那么如何将数据智能也变得更加敏捷呢？为了解决这一问题，我们提出了敏捷AI的实施思路，即在现有敏捷大数据产品的基础之上，基于业务场景设计开发一系列可插拔的实时智能模型算子，这些模型涵盖了业务场景内常见的智能化数据分析需求，具有较强的通用性和复用性，能够无缝接入敏捷大数据平台上的实时数据流并向平台输出分析结果，根据需要实时流入各业务端，最终实现基于实时数据流的智能分析过程。在敏捷大数据产品和敏捷AI的支持下，业务人员可以根据业务场景快速构建从实时数据处理平台到实时数据智能分析，再到实时数据展示的整个智能化数据治理流程，并可根据效果灵活调整试错，极大降低实时智能化业务分析的实施成本。

在上述敏捷AI的实施思路下，我们着手构建敏捷AI算法库，这是一套基于业务领域划分的轻量级通用数据模型集合。其中的每个模型的设计应该遵循以下原则：

• 轻量级，对模型复杂度进行适当的控制保证数据处理的实时性；

• 独立性，尽量减少环境依赖或保证环境的部署独立性，避免由模型引入给系统整体带来的环境依赖变动；

• 单一性，各模型功能尽量单一，保证各模型功能的平行性；

• 数据普适性，除部分模型存在一些必需的特征外，各模型应保证对接入数据的普遍适应能力，通过一定的配置或映射即可以适应绝大多数的业务场景。

为了实现上述要求，我们在研发模型时将不可避免地在某些方面做出一些取舍，例如模型若想通用必将会导致性能的一定程度下降，如何在这些矛盾中寻求一个合理的折中，也是在设计时需要考虑的问题。目前，我们已经针对一些领域开始研发敏捷AI模型，经过实际测试与应用后，不久的将来就将整合进现在的敏捷大数据产品栈中。此外，在未来我们还可以公布相关接口和规约，让用户也有能力将自己的模型加入到库中。

结语

实时数据的智能化分析是未来大数据技术和人工智能技术发展的重要方向之一，如何降低这一实施过程的经济成本、时间成本、技术成本以及变更成本，是敏捷大数据和敏捷AI着重解决的关键问题。本文结合敏捷大数据产品提出了一种解决思路，希望我们的产品能够帮助各组织方便、快速、灵活地构建自己的实时大数据智能分析系统。

责任编辑：ct

阅读全文