展会信息港展会大全

落地三问,详解京东云大模型服务全家桶
来源:互联网   发布日期:2023-09-27 09:47:11   浏览:13159次  

导读:京东云打造的数智算力矩阵,从硬件基础设施到智算集群,再到MaaS服务,提供了一站式的大模型服务能力。 文|徐鑫 赵艳秋 编|游勇 大模型比拼已经走入落地应用的战...

落地三问,详解京东云大模型服务全家桶

京东云打造的数智算力矩阵,从硬件基础设施到智算集群,再到MaaS服务,提供了一站式的大模型服务能力。

文|徐鑫 赵艳秋

编|游勇

大模型比拼已经走入落地应用的战常从算力、存储等基础设施,到使用门槛和工具平台,实力雄厚的厂商们正在全方位参与大模型的竞争。

9月26日,京东云西安城市大会上,京东云发布数智算力全矩阵,包含“阿尔法”智能算力模块、言犀AI开发计算平台和算力智能调度等产品。这是京东云在大模型领域,面向产业客户和应用需求,在全栈式数智基础设施层面的阶段性答卷。

业界观察,京东云正提供从硬件基础设施、到智算集群,再到MaaS服务,一站式的大模型服务能力,从更强算力、更大存力、更加易用和更低门槛等方向发力,推动大模型在产业里的落地应用。

落地三问,详解京东云大模型服务全家桶

01

如何满足暴涨的算力需求?

大模型的快速推进,很多企业开始规划或下场建设智算型基础设施。最近一个大消息是某龙头银行,下单采购万张GPU卡,为自己的大模型部署和落地做规划。

大模型部署对AI服务器需求很高,AI服务器中使用了大量高功率CPU、GPU芯片,致使匹配高功率、高算力的基础设施成为这一轮的投资重点。一位数据中心人士告诉数智前线,互联网客户、银行、运营商,包括一些城投集团,都在小规模尝试部署这类新型基础设施。比如最近一家运营商的省分公司,特别预留出一个独立区域,尝试部署这类算力。

“我感觉后面会有指数级的爆发增长。”上述人士观察,“在ChatGPT推出后,由于大模型的增长,欧美市场对这类基础设施的需求已呈现400%~500%的增长。国内即便稍微慢一点,也在迅速跟进中。”

根据近期国内市场情况观察,预计今年第四季度将会有一些小规模的算力中心项目率先落地;到明后年将会逐步有更大规模的算力中心交付部署。目前在北上广深核心区域,储备建设1000P以上算力中心需求陆续涌现,同时一些厂商考虑到后续运营成本的压力,也在考虑将算力中心部署到乌兰察布、中卫等西部地区。

面对算力中心需求的不断增多,一个新的问题随之出现,基础设施功耗随着算力能力的提高而大幅提升。目前Intel、AMD 主流系列CPU处理器功耗已达到 350W/400W,机柜功耗密度已接近12KW;预计未来3年标准2U服务器最大功耗将达1.5KW,单机柜功耗密度将会突破20KW以上。

而随着大模型的不断商业化部署,对于 AI 服务器的需求将会快速提升,AI 服务器中大量使用高功率 CPU、GPU芯片,带动整台 AI 服务器功耗走高,目前用于训练 ChatGPT 的 NVIDIA H800 服务器的最大功耗已达 10kW,下一代GPU服务器功耗将会出现飙升发展趋势,很快 AI 集群算力密度将会达到 20-50kW/柜。

与此同时NVIDIA H800 单卡最大功耗已至 700W,将会加快突破传统风冷系统散热能力范畴,GPU服务器必将很快迎来液冷时代,而采用液冷GPU服务器机柜密度将飙升达到100KW/柜以上。

随着功率密度的快速上升,对数据中心的PUE要求也愈发严格,根据国家及各省市出台的相关政策,要求控制PUE达到1.3以下,超大型数据中心PUE要求控制在1.15以下。

在这样的需求背景下,京东云率先推出了“阿尔法”智能算力模块解决方案,包括风冷型及液冷型智能算力模块双系列产品。与传统数据中心机房模块相比,支持更高的功率密度,满足算力密度从20kW到100kW/柜的部署需求,同时算力模块PUE制冷因子(CLF)可控制在0.1以下。其中,风冷型智能算力模块主要应用于近期采用风冷CPU/GPU服务器的高功率高算力需求场景;液冷型智能算力模块则更多着眼未来一到三年的液冷服务器大规模应用部署需求。

因此,“阿尔法”智能算力模块既可在现有数据中心高密度扩容及绿色改造中部署,同时也可以在未来大规模算力中心部署交付使用。

“阿尔法”智能算力模块已在京东集团内部的算力集群中规模化部署,支持包括灵犀大模型等业务应用,下半年在外部如智能驾驶、智能制造等行业标杆性项目落地部署,预计明年将会进入大规模的产品交付部署期。

除了底层基础设施,京东的智算集群技术也在不断开放给外界。计算集群尤其需要在网络和存储上进行革新。今年5月,京东对外推出了分布式统一存储系统云海,这是京东历经10余年,在自身复杂场景上完全自主研发,提炼与沉淀的能力,不仅满足各行业对云盘高性能、低延时的业务诉求,还通过打造存算分离技术架构,解决企业存储成本逐年攀升、存储集群管理困难等问题。

落地三问,详解京东云大模型服务全家桶

数智前线获悉,目前,云海已覆盖零售、物流、金融、健康、工业等行业的不同业务应用场景,为客户节省整体基础设施成本超30%。

此外,针对大模型训练所需的异构算力池化能力,京东的云舰异构资源池化解决方案,在原有混合多云CPU算力池化能力基础上,增加了针对AI应用所需的调度管理能力,包括卡管理、节点管理、异构资源调度管理等,GPU利用率提升70%,全面推动大模型降本。

02

客群能力不一,如何降低使用门槛?

言犀大模型发布后,在和大模型的内外部用户的交流中,京东云IaaS产品研发部负责人龚义成和他的团队察觉到,不同类型的企业和开发者,对大模型的需求和使用方式有差异。

比如,一些用户希望调用API的方式来训练自己的模型,有客户想基于开源的模型来做场景验证和测试。也有传统行业客户,连基础调用API的能力都不具备,他们则在尝试从应用层接入大模型的能力。

多样化的需求下,模型提供商们需要更有针对性地服务不同客群,降低大模型落地门槛。这一背景下,京东云在西安城市峰会上发布的言犀AI开发计算平台,将开发大模型的底层能力解耦,为大模型开发和行业应用落地,提供了定制化、“丰俭由人”的解决方案。

具体而言,言犀平台有三类交付方式,保障不同类型客户需求。一类是经典的API调用言犀MaaS服务,也可以使用平台支持的其他主流开源模型。二是公有云SaaS版,平台提供一站式模型开发、训练和部署的能力,支持那些没有API调用能力的用户,以最小化的成本实现行业大模型的开发和部署。三是对数据安全有特殊要求的客户,可以采用私有化交付版本,实现数据完全本地化。这三类服务形式下,基本满足了技术储备不一、行业背景各异的客户对使用大模型能力的需求。

业界对言犀AI开发计算平台的到来并不意外。今年7月,言犀大模型发布之际,京东探索研究院院长、京东科技智能服务与产品部总裁何晓冬列过时间表,称下半年京东云将更加关注怎么使用大模型,并推动它真正落地行业。

但随着言犀AI开发计算平台发布,外界也在好奇,相比其他平台的工具链,它的能力的差异性在何处。

京东集团技术委员会主席、京东云事业部总裁曹鹏在演讲中提到,专业的知识和能力沉淀是言犀AI开发计算平台的一大特点。京东重点选择了自身有深厚积累的产业优势,打造大模型,转化成知识库,为产业创造价值。

业界人士观察,随着大模型深入到行业场景,各大厂商最终会基于过往能力积淀和深耕的领域,形成差异化的能力和行业布局。而京东言犀AI开发计算平台也走的是这条路径。

另外,京东言犀AI开发计算平台也顺应了当下行业用户开源、闭源两条腿走路的趋势,支持对主流开源大模型的调用。不过,龚义成介绍,他们在开源模型的提供数量上有节制,到今年年底,平台将择优提供20~30款基础模型供用户选择。

落地三问,详解京东云大模型服务全家桶

通过低代码等工具链降低大模型的使用门槛,是言犀AI开发计算平台的另一大特点。

龚义成介绍,他和团队在与内部客户交流中发现了应用开发者们的差异化需求。最初,言犀平台重点支撑算法开发者的需求,这个群体有能力在平台上做代码调整和算法调优。但很多客户内部还有几千名应用开发者,他们本身不懂算法,又想尽快试一试大模型。

言犀AI开发计算平台的操作界面中增加了低代码版本。应用开发者们只需要上传数据,选择不同的模型,在可视化的界面上配置参数,就能完成训练。“这有利于大模型在公司内部大规模,基于应用侧推广”,龚义成说。

京东云还从共性角度沉淀了大模型应用落地的困难,精选京东技术团队多年来积累开发的100多种训练和推理优化工具,比如支持断点续训等,让企业用户能更高效训练和部署模型。面对行业普遍面临的数据缺乏难题,言犀平台也提供了多款数据集供用户使用。

另外,当下行业里也有不少企业已经在构建模型社区,推动生态建设。数智前线获悉,京东目前已经有内部的社区在运作,服务于内部的几千名AI开发工作者,“内部把社区的流程、模式跑通,才会对外开放这个社区。“龚义成说。

03

缺乏爆款,大模型如何证明价值

一位电力行业的数字化服务商告诉数智前线,当下大模型ToB亟需一个爆款。他认为,爆款意味着解决了具体的行业痛点,满足了需求,市场就会快速跟进,这将推动大模型真正走进千行百业。

几天前,红杉美国在一篇报告中也指出,当下这波的生成式AIGC浪潮下,生成式AI最大的问题是证明价值。文中提到,“2000亿美元的问题是:你打算使用所有这些基础设施来做什么?它如何改变人们的生活?”

该机构列了一组数据来说明当下的大模型产品需要证明价值。比如,从DAU指标看,好的消费级应用有60~65%的DAU/MAU,WhatsApp的为85%。相比之下,生成式AI应用的中位数为14%

这些信息意味着,当下在ToB的场景里,大模型需要积极从应用层面,向整个产业展示价值,推动它向更广阔的领域推广和使用。实际上,厂商们也已经在积极挖掘和探索内外部的应用场景,从知识管理到数智助手等多个场景发力。

京东云从应用层发力,强调产品的高可用,真正有端到端的价值。何晓冬此前接受采访时就提到,京东更关注技术能力是否能够形成有机的载体,能把某个产品在具体场景应用起来。

在京东内部,大模型在零售、健康和金融等多个领域都已经应用,曹鹏在演讲中提及,每天言犀调用的次数达到了几百亿次。

落地三问,详解京东云大模型服务全家桶

例如,在零售领域里,电商业务的营销和客服等场景都对大模型需求迫切,接入大模型后也产生了切实的效果。大模型升级后的智能客服,提升了智能交互的质量,减少了机器转人工的比例。尤其是对长尾用户意图的感知,相比过去传统的识别,错误降低了一半以上。

在健康领域,大模型和京东健康的场景结合,探索出了健康助手及辅助诊疗等应用。在这一场景里,既有服务个人用户的个人健康助手和随访管理,帮助用户制定锻炼计划;也能服务医生、药师,充当诊疗助手、科研助理,完成医疗文案书写和诊疗服务调度等任务。应用大模型后,健康助手及辅助诊疗有效提升了诊疗有效性、专业安全性。

在内部的关键场景完成了历练和实践后,京东的大模型能力也开始与外部共创,服务产业。

最近,京东云已经基于大模型的能力,升级了零售全场景解决方案,其中包含了智能营销、智能服务、智能供应链三大能力,可服务内容生成、营销策划、供应链优化和产品设计、消费洞察等若干场景。比如,直播的文字风格跟商品介绍的风格不一样,需要进行口语化的风格转换。大模型的能力就非常擅长这一任务。

一些企业已经体验到了大模型加持后智能营销的效果。9月26日的京东云城市大会西安站上,联想中国区消费KA内容营销负责人 孙学军介绍,联想从2022年开始使用言犀多模态数字人打造的虚拟主播,减少了搭建实体直播间和培养主播的成本。同时,24小时值守的虚拟主播还能提升用户端的体验,让用户无论何时进店都能得到服务。目前从效果看,言犀多模态数字人主播的日成交金额已经达到了真人主播的2.3倍,每小时成交金额达到真人主播的45%,成本不到十分之一

在金融领域,京东金融的“智能选基”产品也将全面服务于金融机构。在政务、健康、工业、数字人直播等领域,京东云的能力也都开始对外输出。

从应用层发力,内部淬炼,外部开放,京东言犀大模型及其背后的数智算力矩阵在这个过程里,不仅自身的能力在不断迭代升级,也向行业展示了其大模型的产业价值。这是京东云探索大模型落地的务实路径。

当下,大模型被认为是一场几百年一遇的产业机会,极大提升了信息的交互和传播效率。京东CEO许冉此前演讲中指出,大模型的价值=算法×算力×数据×产业厚度的平方。大模型正逐渐从聊天工具发展成了一个生产力工具,在深刻改变产业链的方方面面。

而在大模型逐渐走向千行百业的过程里,京东云正从负责任的产业供应链角度出发,从硬件基础设施到智算集群,再到MaaS服务以及应用落地等多个层面,降低大模型应用的门槛,让产业各界去共享大模型时代的红利,释放社会价值。

赞助本站

人工智能实验室
AiLab云推荐
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港