作者 | 马超
责编 | 伍杏玲
出品 | CSDN(ID:CSDNnews)
从AI的发展趋势来看,最新的人工智能模型对于算力的要求往往较高,如谷歌的T5,其整个模型的参数数量达到了惊人的 110 亿,谷歌科学家更在T5的论文指出:“越大的模型往往表现更好。这表现扩大规模可能是实现更好性能的方式。“
一般的创业公司如果没有雄厚的资金实力是不可能搭建这种级别的AI训练平台。这从另一个角度推进了AI与云计算的结合,只有将 AI云化才能降低门槛,促进行业创新发展。AI云计算化实际与全场景全栈AI是同一概念,只有做好AI云,才能让AI充分发挥威力,体现价值。
AI与云计算的结合是我国IT产业发展的重要方向,根据IDC于近日发布的《中国AI云服务市场半年度研究报告》显示,2020年中国人工智能市场规模将会突破50亿人民币,已经形成一个不可忽略的细分市场,尤其是在疫情影响下各行业上云意愿明显加强,将使智能外呼、对话机器人等交互式AI迎来一波发展机会。
初识AI云服务
AI云,AI即服务(AIaaS),随着AI技术的不断落地,越来越多的企业开始着手将AI集成到自身的产品体系中。最为简单有效的方式是去使用那些基于云的AI云服务(AIaaS)所提供的API。
根据IDC的研究资料,截止到2021年,全球企业对认知和AI系统的支出将保持50.1%的年复合增长率,这说明企业对这些技术的总支出将从2017年的120亿美元增加到2021年的576亿美元。
AI云服务蓬勃发展的背后,是AIaaS集成了AI与云计算的共同优点。主要有如下几点:
低成本:AI云使用户省去那些昂贵的设施开支,由于大多数的AI工作任务被认为是“突发性”的,他们依赖于那些能够在短时提供大量计算能力的服务。AIaaS只会针对用户去收取那些他们进行硬件使用时的费用,这大大降低了他们的成本。
可扩展:与其他的云服务一样,AI云服务本身也具有较高的可扩展性。企业可从一个试点项目开始,随着需求的提升,快速扩展AI服务的规模。
高可用:一般来讲云计算的可用性,会比传统架构的系统高出两个量级,而同样的优点也被AI云服务所继承,目前各大厂的AI云均未发生过分钟级的宕机情况。
AI云服务的背后:认知智能全面升级
笔者从一个AI云服务的用户角度上看,AI云服务快速发展背后的是,人工智能由感知到认知的升级,由细分领域向普惠推开,对于客户个性化与定制化需求进行快速响应的过程。
如金融行业的呼叫中心需要分析客户的语气,以快速处理投诉类案例;出行类App遇到客户说出某些关键词时,需要立刻与110联动报警。在面对各行业个性化定制需求日益增长的情况下,阿里云、百度、腾讯等公司是走在业界前列的。
今年以来,以阿里和腾讯为代表的国内科技巨头均在认知智能方面有了不小的进展。先是阿里在年初,国际知识发现与数据挖掘协会KDD共有18篇论文入选,刷新国内企业记录,成为近几年KDD会议论文入选数量最多的科技公司之一。
今年5月底,国际计算语言学协会年会ACL,在官网上(https://www.aclweb.org)公布了2020年度的论文收录名单,腾讯共有30篇论文入选,领跑国内业界AI研究第一梯队。
如果将数据比作数字时代的石油,那么BAT等大厂以其丰富的业务场景与庞大的用户基数,为AI团队提供了世界上最大的原油储存基地,这些为前沿的AI研究成果提供了令业界非常羡慕的绝佳“训练场”,拥有了这样高的训练水平,腾讯、阿里能在AI方面取得顶级成果也就不足为奇了。
KDD、ACL都是认知智能方面的顶会,阿里和腾讯的突破体现了AI云市场整体趋势,即用户需要个性化服务,通用性较强的感知科技难以满足客户的定制化需求。市场真正需要的是为用户量身打造的智能AI服务。
笔者在达摩院十大科技趋势发布:2020 非同小可!曾经介绍过,人工智能正在从感知智能到认知智能演进,关键突破口就是跨过深度学习去做研究。由于深度学习只能处理单一模态的数据,因此深度学习模型下的智能机器只能够照章办事,缺乏灵活性,认知智能就是要找到多模态信息之间的关系,因此这使得多模态成为完成由感知到认知这一跨越的必然途径。
智能语音与多模态AI云服务发展的关键
正如前文所述,IDC将报告的重点放在了智能语音、对话式AI、NLP方面,而这些领域背后,实际比拼的是智能语音、多模态信息等领域的技术,下面笔者带大家来解读一下这些领域的基本情况:
智能语音:实现人机语言的通信,包括语音识别技术(ASR)和语音合成技术(TTS)。智能语音技术的研究是以语音识别技术为开端,最早可以追溯到20世纪50年代。随着信息技术的发展,智能语音技术已经成为人们信息获取和沟通最便捷、最有效的手段。
智能语音的一个重要应用就是AI助理审判员了,现场所说内容,快速生成文字了,据统计平均一家区级法院每年受理案件在6000件左右,人工录入动辄上千字的判决书,对于全国12万法官来说,意味着白加黑、五加二的劳动强度,不过现在的AI语音技术可以在无需纸笔和键盘的情况下“出口成章”,这样的AI助理审判员在1.5万个法庭全面启用后,为办案工作繁重的法官们减轻了不少压力。
AI智能语音系统结合对庭审和办公应用场景的定制,可以在咨询、立案、庭审、判决四个环节都在帮助法官。
多模态特征提取:很多90后、00后在对话当中经常使用表情图、动态图等方式来表达情感,将这些非语言信息的语义提取并翻译出来,就是多模态提取的任务了。今年KDD Cup的一道赛题就是“多模态商品推荐”, 其中多模态商品推荐指的是关联融合视频、图片、文本等多模态用户数据,结合用户的购买习惯、浏览序列等多维信息进行建模学习,精准理解用户的检索需求,推荐并返回用户真正关心、感兴趣的产品图片或视频。
多模态特征提取在快手及B站等新兴视频App上应用很多,比如快手每天就有70 亿条视频总量、1500 万日新增视频,日均的使用时长超过 60 分钟等,日新增的用户交互数据及评论及弹幕等每日更是新增上亿次,快速地从这些多模用户中提取出相应信息,以理解视频内容,并做好用户推荐,使多模态特征提取成为各大厂的发展方向。
对话系统与无感交互:对话系统与无感交互的终极奥义恰恰在于它要比用户更懂用户。
前段时间笔者经常熬夜加班,结果打开淘宝会发现总给我推荐防脱洗发水,目前已经推荐枸杞了。
认知智能的终极发展是让用户在使用过程中对于“人工智能”不断淡化,甚至无感化。现在用户使用人工智能时还会明显感受到它的存在,比如你打开电视还需要说“我要看**的电视剧”,对手机说“给**打电话”,真正实现认知智能之后,你的这些交互行为变为多余,比如你回到家,人工智能系统会根据你的步态,推荐一个适合你当下身体状况的食谱,等你吃完饭下楼去超市的时候,你的手机会建议补充一些牛奶,因为你刚刚已经把家里最一袋牛奶喝掉了。相信读到这里读者明白,“化有形于无形”,是用户交互的最终奥义。
最后,笔者相信,“云上AI”是实现AI普惠的最好方式。云的出现,让诞生60多年的语音技术从少数人掌握的高端工具变成了人可用的“平民技术”。AI的认知化升级,也更好为生态赋能。
虽然短期来看,在AI领域主流趋势仍是私有化部署。但云服务、混合云的浪潮也将带动AI云服务市场的快速增长。随着技术的升级,未来3-5年,今天用户已经部署的AI产品,有可能被新一代更智能的产品替代。让我们做好准备迎接新一代认知AI云产品的到来。