在数据价值被无限放大的当下,越来越多的企业选择成为数据驱动型组织,据福布斯调研报告,如果成为一个数据驱动型公司,收入会增加20%,同时成本会减少30%。如此明显的降本增效效应驱动着诸多企业进行数智融合的探索,但如何将大数据和机器学习技术有机地进行数智融合,则成了横亘在众多企业面前的问题。
数智融合释放企业价值
亚马逊云科技大中华区产品部总经理陈晓建在不久前的亚马逊云科技大数据与机器学习媒体沟通会上表示,越来越多的企业希望能够通过融合大数据和机器学习能力来提供业务产出,以充分发挥数据的价值。这是很自然的趋势,因为大数据技术所提供的能力是机器学习建模所需要的必然基础,而机器学习也能够为大数据技术提供更高的智能,为商业业务产生价值。从用户逻辑来看,大数据技术和机器学习技术本身就是互为因果的。
亚马逊云科技大中华区产品部总经理陈晓建
事实上,为了更加高效地围绕数据构建和实施项目,使得数据在两者之间无缝流转,成员快速具备相关能力,推动公司企业数字化转型迈向新的高度,企业数智融合的需求也在各个层面上开始涌现。
组织架构层面上看,企业需要将原来分散在各个部门的机器学习实践进行整合,并与大数据项目进行统一协调和资源配置;人员能力层面上来看,要求和安排原有传统的大数据实践者掌握机器学习技术,应用到大数据具体项目或承接新的机器学习相关的项目需求,要求机器学习从业者也要掌握大数据处理能力,更好、更便捷地完成模型所需的数据准备和加工;项目实施层面上看,仅依靠传统的大数据技术是无法全方位提供充足的数据见解,仍需要机器学习的模型能力补充,越来越多的数据项目会融合大数据和机器学习两者的能力;而工具支撑层面上来说,需要面向大数据技术和机器学习构建统一的开发平台和技术基础,可能是对已有大数据平台进行改造增加机器学习相关场景和能力,或是完全推倒重新构建一个面向两者的通用的平台。
企业实施数智融合的困境
虽然企业对数智融合的关注度在不断上升,但理想很丰满,现实很骨感。仅从技术发展的趋势来看,大数据的侧重点在于海量数据的采集、清洗和查询能力,而机器学习则更关注算法本身的优化,两种不同的技术路线导致了企业的数据分析和机器学习融合过程中会普遍出现以下问题。
首先是大数据和机器学习目前是分而治之的情况。在大多数企业中,这两个功能都是属于两个不同的团队来负责,数据也保存在不同的仓库中,例如车企数据通常产生于生产制造环节和行车环节(用户数据)两个环节,这两个数据通常是由制造部门和运营部门所负责的,数据本身也处在不同的数据仓库里。对机器学习来说,要从不同业务部门拿到数据,同时还要花很多时间理解这些数据背后的定义、原因、专业的算法,这往往对机器学习来说是额外的负担。
其次是数据处理能力不足。以生产制造企业为例,机器学习可以帮助客户对产品售后维修需求进行预测,由被动响应变为主动规划。但由于不具备足够的大数据处理能力,模型开发成功后,不能够有效收集处理海量的运营数据,致使预测不准确,无法达到预期业务目标。
最后是数据分析人员参与度低。算法在实验环节和现实世界中往往有着不同的表现,现实情况经常是,模型在实验环节效果良好,但实际使用中却不尽人意,实验环境只是对真实环境的简单模拟,生产环境要复杂得多,如果因为算法不给力,系统不给力,数据不全,会导致反复迭代做不下去,最后效果自然不佳。
大数据与机器学习如何“双剑合璧”?
陈晓建认为,面对数据分析和机器学习融合的需求和问题,企业应当在云中打造统一的数据基础底座,实现大数据和机器学习的“双剑合璧”,为企业发展提供创新引擎。为此,企业需要建立统一融合的治理底座,如数据质量、数据权限、数据开发、数据工作流、可视化,并实现大数据与机器学习之间的充分双向互动,互为支撑,互为因果,以形成正向循环。除此之外,企业还需要构建统一数据共享、统一权限管控、统一开发及流程编排为核心的三大能力,以打破数据孤岛,并可让数据在不同的业务系统之间流转,最终提升整体的开发效率。
作为一家“授人以渔”的企业,亚马逊云科技多年来一直致力于通过开放的架构、可拓展和安全可靠的数据服务、高效分析的数据分析引擎以及AI工具为企业提供极致的性能。亚马逊云科技于去年发布的“智能湖仓”架构便是一个典型的例子,它将亚马逊云科技全面而深入的数据服务无缝集成,打通了数据湖和数据仓库之间数据移动和访问,并且进一步实现了数据在数据湖、数据仓库,以及在数据查询、数据分析、机器学习等各类专门构建的服务之间按需移动,从而形成统一且连续的整体,满足客户各种实际业务场景下的不同需求。
亚马逊云科技大中华区产品部技术专家团队总监王晓野在接受采访时表示,基于五大理念,亚马逊云科技“智能湖仓”在不断帮助客户在机器学习和大数据创新的项目上面去探索更新的相应的实践。
从技术层面的落地来讲,亚马逊云科技可以通过为企业提供以下有针对性的服务和工具,来赋能企业进行数智融合。
一是构建云中统一的数据治理底座,打破数据和技能孤岛。亚马逊云科技可以帮助企业客户构建统一的数据治理底座,从而实现大数据和机器学习的就数据共享、数据权限的统一管控以及统一的开发和流程编排。通过构建云中统一的数据治理底座,不仅能提升大数据和机器学习的高效融合,还能减少大数据和机器学习重复构建的工作,显著降低成本。具体到工具层面,Amazon Lake Formation现已推出众多新功能,实现了数据网格跨部门的数据资产共享,以及基于单元格的最细粒度的权限控制机制。Amazon SageMaker Studio可一站式地完成数据开发、模型开发及相关的生产任务,该服务基于多种专门构建的服务,如交互式查询服务Amazon Athena、云上大数据平台Amazon Elastic MapReduce (AmazonEMR)、云数据仓库服务Amazon Redshift、Amazon SageMaker等,可为大数据和机器学习提供统一的开发平台。
二是助力机器学习从实验转为实践,为机器学习提供生产级别的数据处理能力。机器学习模型在模拟和实际运行中遇到的情况有很大不同,因此项目成功的关键是对复杂的数据进行加工和准备。亚马逊云科技提供多种灵活可扩展、专门构建的大数据服务,帮助客户进行复杂的数据加工及处理,应对数据规模的动态变化,优化数据质量。以Amazon Athena为例,它可以支持多种开源框架的大数据平台,包括Amazon EMR、高性能关系数据库Amazon Aurora、NoSQL数据库服务Amazon DynamoDB、Amazon Redshift等多种数据源,并通过对这些数据源进行联邦查询,以快速实现机器学习建模的数据加工。除此之外,Amazon Redshift、Amazon Managed Streaming for Apache Kafka (Amazon MSK)和Amazon EMR等无服务器分析能力,可以让客户无需配置、扩展或管理底层基础设施,即可轻松地处理任何规模的数据,为机器学习项目提供兼具性能和成本效益的特征数据准备。
三是让数据分析智能化,赋能业务人员探索创新。为了赋能业务人员进行智能分析、模型效果验证以及自主式创新,亚马逊云科技也在通过在日常分析工具中集成机器学习模型预测能力等方式,不断提供更加智能的数据分析服务。其中,深度集成机器学习Amazon SageMaker模型预测能力的Amazon QuickSight 、在分析结果中添加基于模型预测的Amazon Athena ML可帮助用户使用熟悉的技术,甚至通过自然语言来使用机器学习。而Amazon Redshift ML、可视数据准备工具Amazon Glue DataBrew、零代码化的机器学习模型工具Amazon SageMaker Canvas等服务则能助力业务人员探索机器学习建模。
“到目前为止,亚马逊云科技已经帮助全球数十万的用户通过利用大数据和AI技术帮助业务发展。基于亚马逊云科技的‘云、数、智’一体服务组合优势,智能湖仓义景延伸出在云中实现大数据与机器学习融合的实践路径,为大数据和机器学习打破数据及技能孤岛,机器学习由实验转为实践,赋能业务人员探索创新。“王晓野总结道。
随着数字化转型的推进,以数智融合为核心的数据驱动转型已成为企业的硬需求。IDC中国助理研究总监卢言霞表示:“根据IDC2022年中国人工智能及自动化市场的十大预测,人工智能将无处不在。到2022年,60%的中国1000强公司将在所有关键业务的横向职能中扩大使用AI/ML,如营销、法务、人力资源、采购和供应链、物流等。由于机器学习更加依赖算力、算法、数据,人工智能的快速发展拉动了对AI基础数据服务的需求,预计在未来几年内将稳步增长。在大数据与机器学习领域,亚马逊云科技提供广泛而深入的服务,通过云、数、智深度融合迎合市场需求,能够降低更多行业用户上云用数赋智的门槛,更好地开展云上数智融合之旅。”
同时,亚马逊云科技认为机器学习和大数据的融合并不是单纯的技术问题,也坚持着“授人以渔”的理念,通过面向快速算法原型的数据实验室的应用科学家、面向生产精度可用的模型训练指导的机器学习解决方案实验室,以及提供端到端咨询及交付的专业服务团队,通过不同分工的专家,和客户肩并肩一起,助力客户探索机器学习与大数据融合的挑战,帮助更多企业实现商业价值。
(7922229)