UTOFCOMMON
/不写平庸的故事/
大模型将是阿里云撬动增量市场的杠杆。
文/任雪芸
编辑/王芳洁
4月11日的阿里云峰会上,阿里云正式发布了自研大模型“通义千问”。
拿到了邀请码的我们,问“通义千问”的第一个问题是阿里云如何重回增长?
想来,这应该是阿里云自己也很关注的问题。尽管目前在云服务市场中,阿里云仍然是当之无愧的行业老大,并且就整个收入规模而言,仍然领先了竞争对手几个身位。
2022年国内各大云厂商们的收入数据显示,阿里云、华为云、天翼云、移动云、联通云、百度智能云、金山云的收入分别是:776亿元、453亿元、579亿元、503亿、361亿、177亿元、82亿元。
但是,增速的下滑确实令人警惕。不久前,阿里公布了2023财年的第三财季财报,云业务收入201.79亿元,同比仅增长3%。上一个季度的同比增幅是4%,再往前一季度为10%。而就在两年前,阿里云收入增幅还高达50%。而在2018年,阿里云不仅占据着国内绝对一位的市场,营收增速还一度惊人地超过80%。
正是在这样的背景下,阿里董事局主席兼CEO张勇,于2022年末亲自出任了阿里云的一把手。
在此次峰会上,阿里云宣布了有史以来最大幅度的一次降价,通用计算对比上一代主售产品最高可下降40%,同时将开放计算存储、数据库、机器学习等核心产品免费试用。显然,价格被阿里视为非常重要的竞争要素。
但价格一定不是唯一的竞争要素。让我们来看看“通义千问”,如何给出阿里云的增长方案。
可以看到,“通义千问”回避了2022年的现实,这让它显得非常聪明。并且它给出的解决方案,看似也比较靠谱,例如加强与其他公司的合作,推出新产品和服务、优化客户体验等。
“通义大模型”不就是阿里云推出的一款新产品吗?并且,按照阿里云的定义,大模型供应市场时,应采取MaaS(Model as a Service)模式,模型即服务,于是新服务也产生了。
在阿里云峰会上,张勇表示,将以“大模型+云计算”为核心,通过释放技术红利,不断降低客户用云成本,从而获取更多的用户支持,基于此,也能做大市场基本盘,加快中国企业的上云速度。
由此可见,大模型将是阿里云撬动增量市场的杠杆。接下来,让我们将问题抛回给大模型自己它将如何帮助阿里云重回增长?
令人遗憾的是,通义给出的几乎是一个通用型的答案,基本适用于市场上所有的玩家。目前,每个发布了大模型的云服务厂商,都表示要利用大模型,为客户提供更精准、更全面的服务和产品。
也正因此,从3月开始,中国的大模型迎来了大爆发。似乎各家公司都认为,只要有了大模型,增长的答案就会涌现。
一切表现的就像阿拉丁擦亮了神灯一样,技术带来的变化甚至有些魔幻。当日午间,参加“阿里云企业级GPT群访活动”的人挤满了会议室,阿里云CTO周靖人半开玩笑的说,虽然阿里早在2019年就开始研发“通义大模型”,但要不是ChatGPT帮助大家完成了市场教育,今天到场采访的人一定没有这么多。
这句玩笑其实提示了一个问题,当市场已经非常热了,竞争成本就会上升,如果企业没有实现领先性或者差异化,增长仍将是一个难题。
以下是本次群访环节实录,有删节。
Q:阿里2019年就已经启动大模型研发,一直以来我们认为大模型正在从各个维度进化与融合,能介绍下阿里的一个研发的体系和路线吗?
周靖人:这一次我们发布的产品在既定的路线上面,也是向大家展示过去几年一系列的工作,但这个并不是代表我们最终的技术成果。因为我们还在不断地在这方面探索,真正让智能化学习人类智慧的方方面面,从阅读、自然语言到视觉都是我们持续在创新和突破的方向。
Q:为企业定制的专属大模型,和现在的一些通用大模型有何不同?阿里云提出的这种云上专属大模型,具体将是以什么样的形式来实现企业的量身定制?
周靖人:“通义千问”并不是说会根据某一个业务问题具体去优化,或者说去定制,更多的是从整个知识体系去一系列的融合。
实现路径上看,以“通义千问”基础,然后会为企业留一个专门的数据空间,这个数据空间是安全的。所有的企业数据,不需要做任何的数据预处理,不管是ppt、文字、图片、视频,都可以授权到数据空间里,“通义千问”一键式生成企业的专属大模型。
企业通过几行代码就可以调用模型,不需要从头开始训练,把个性化诉求加入到模型里,所有的模型都能通过自动化生成。我们还可以提供完善的API开发流程,所有这一系列都能自动化探索和创新,真正意义上把“通义千问”的能力发挥出来,解决各行业的实际问题。只需要基于“通义千问”模型,二次开发就可以。
Q:去年我们是第一个提出了MaaS(Model as a Service,模型即服务),当时您怎么能做到就是领先业界提出这个概念,如果从MaaS角度来看的话,我们怎么样把MaaS和自己的技术以及商业模式结合在一起?
周靖人:去年云栖大会我们提出了MaaS这个概念,这也是我们在多年训练大模型上的体验。随着今天人工智能发展,我们要讲到的是以模型作为一个生产元素,围绕着模型全链路的生命周期形成一系列的产品,这样才能真正意义上实现MaaS。
当前人工智能这个模型非常的繁杂,层出不穷但是缺少调用的规范,让模型的使用更简洁、实现快速部署、节省成本、降低延迟,这些都是要去解决的问题。
Q:接下来阿里的所有 APP 都会接入“通义千问”,内部有没有一个时间表,这个进度能有多快?难度又在哪里?
周靖人:目前没有一个时间表,这部分工作一定的探索性,有很多新的元素在里面,这是一个大家所面临的机遇,但并不是一蹴而就的,我们也欢迎各行各业能够真正参与到这样一个业务创新里面来,把“通义千问”模型的能力发挥出来。
Q:大家肯定会把“通义千问”跟 ChatGPT比较,在内部评估中,您觉得现在“通义千问”水平怎样?
周靖人:OpenAI是目前全球大模型研究领域的引领者,ChatGPT是非常优秀的模式,“通义千问”目前还在不断学习和成长中。尤其GPT-4在推理、数学等方面有了非常不错的表现,“通义千问”尚不能及。当然,“通义千问”也有自己较为擅长的领域,比如在文本对话、阅读理解等方面。我们需要去取长补短,弥补我们中间的不足。“通义千问”每周都在进步,过一段时间,你会发现他又学会了很多东西,进步很大。
Q:“通义千问”大模型的技术路线,选择的具体是哪个路线?
周靖人:技术的路线不是一个简单的分类,在技术的探索上面,也没有说今天只能沿着一条路线,更多的是取长补短。其实这是我们科技进步的一个魅力,今天我们也是在多条路径上面不断地去探索,然后不断地去提升我们对整个问题的一些理解,然后才有利于我们下一步的创新和突破。
Q:未来可能就是整个算力也好,成本会降到 1/10 甚至1/100。它是否可以理解为阿里的一个战略,主打极致的性价比?
周靖人:阿里云是希望进一步把技术的门槛降低,让更多的开发者参与进来,同时通过我们一系列技术架构的优化,能够把红利够释放给我们的开发者,能够真正的让云计算更加的实惠。
Q:之前大家都在提智能云,这一次的人工智能在效率上带来的具体变化是什么?可不可以讲一个具体的例子?
周靖人:你提到了一个概念“智能云”。那往往我们讲到智能云,会更多想到智能。今天所有智能的研发离不开底层云的基础设施以及强大的算力支持。所谓智能云的基础就来自于智能的技术设施,能够把大数据,把机器学习这方面的能力发挥到极致。所以之所以我们今天讲到智能云,其实是云的延展。
举个客服的例子,以前要做一些人工的标注,然后拿到数据后再针对这样一个场景训练。在今天我们有了预训练模型后,不再需要大家从头开始训练,但仍然需要对自己行业进行一些整理。
Q:阿里云要全力投入深层式 AI 建设,可不可以理解为是阿里云要 All in AI?
周靖人:其实阿里云自始至终在智能化投入方面是没有任何的改变,我们一直秉承的理念是云智一体,云和这个智能毫无疑问是高度融合的。
Q:在具体行业的应用中,企业的专属大模型会不会遇到一些垂直领域所具备的特性问题?
周靖人:专业的知识有不一样的体系,这正是今天专属大模型所需要去解决的。比如说我们的电力,他自己的行业的一些规范,是通用智能大模型所需要加强的部分。
Q:阿里云的M6模型就是10万亿的参数,与其他千亿万亿级的模型相比,在训练结果上有哪些不同?
周靖人:参数并不是一个唯一的一个指标,并不是说这个参数规模越大,模型一定好,但参数规模大通常代表模型的理解能力。
Q:现在都在做AI 大模型,对于企业客户来说,如何去理解大模型与大模型之间的不同?
周靖人:我相信企业很多时候并不关心模型参数,更多的是关注模型能力的释放,能够更好地解决我当前的这个业务的,参数只是一个方面。
Q:行业大模型和专属大模型,是由谁来开发?差别会是什么?
周靖人:其实行业模型跟专属模型在一定程度上是有一些类似的,或者说我们只是有不同的描述方式。怎么把能够让我们这个通用大模型和行业的知识融合在一起,是今天我们讲到这个专属大模型的一个重要的点。
Q:阿里云的同行为金融制造领域的客户一般会采购几百枚英伟达终端性能的处理器,然后用自己的算法工程师驻场帮客户去调教模型,部署软件。企业专属模型和这种模式会有多大的区别?
周靖人:大家可以看到我们在汇报里面讲的是公共云的产品服务。企业专属模型其实是围绕着这个公有云,“通义千问”的版本可以说是每周都在迭代,本身的技术探索是无止境的。刚才你讲到了很多比如说调优或者在一个专有名里面场景去做,这都是比较传统的方式。
那今天在一个新的方式里面,我们要有综合的考虑,也不是说今天只做公有云,只是用好公有云,一方面能够把今天最新的模型能力有效的结合在一起,也可以有效地帮助我们训练模型,在模型之中是在节省今天模型应用的开发成本。
Q:ChatGPT用了上万枚英伟达的A100芯片,国内云圈行业有一种说法是说1万枚英伟达的A100芯片是做好大模型的一个算力的门槛,您是怎么去看待这种观点的?
周靖人:这个算力门槛我们不谈具体的数值,但是整个这个观点是对的。就今天任何的模型,它都是一个全方位能力的展现,不是仅仅是指模型本身,包括了今天云相关的训练规模,训练的算力的支持。
不过正如我今天这个报告里也讲到了,绝对不是几张卡的一个简单的堆砌,如果光有卡,很多的问题还是跑不起来的,比如互联怎么去解决?通信的问题怎么去解决?数据处理怎么去解决?
当然,这也是我觉得存在的技术难点。
Q:我们怎么样做到把大模型的训练和运行的成本降到1/10 或者1/100?有哪些具体的做法可以展开谈一下吗?
周靖人:有很多的技术细节,这是我们作为云厂商里面希望为广大的开发者提供的一个核心的技术支持。比如说我们刚刚谈到的这个模型训练,那模型的训练就会涉及到如何能够有效的把所资源用起来,这都是非常细致的工作。
当我们进入到一个专属模型后,如何去对这些专属模型进行进一步的成本的降低,这中间有非常多的技术的创新和技术的突破。我们也期待更多的科技工作者在这个模型上面不断探索,也支持我们的企业把模型能够应用起来,产生更大的业务价值。