萧箫 发自 凹非寺
量子位 报道 | 公众号 QbitAI
AI芯片行业,正面临着层出不穷的需求。
据Research and Markets预测,数据中心的AI芯片(即AI加速器)市场规模将从2018年的28.4亿美元,增长到2023年的211.9亿美元。
AI芯片,分为训练和推理,前者用来“做模型”(跑大量数据、调整参数),后者则用来“出结果”(实时检测、目标跟踪)。
“做模型”就像是产品加工,在“工厂”里完成,但模型出来后,就不局限在“工厂”中了,还能部署到手机、汽车等设备上使用。
这里的“工厂”,通常是云端,那里有大量服务器部署;而手机、汽车等设备,被称为边缘 (终端),也是AI模型真正需要用到的地方。
可以看出,AI训练芯片只靠绝对算力只要算力越高,模型训练得就越快。
但手机和汽车等设备,受体积、储能、实时等诸多限制和要求,算力已不再是单一的考虑条件。
AI推理芯片不仅看算力,还要讲究时延、功耗和成本。
相对于AI训练芯片,AI推理芯片需求量更高,使用场景也更广泛。
市调机构Tractica称,预计从2018到2025年的7年时间里,AI推理芯片将有10倍的增长,至2025年可达170亿美元。
事实上,无论是算力、还是硬件要求,边缘推理芯片的设计都要比云端更复杂。
处在野蛮生长阶段的AI芯片市场,做好云端推理芯片已非易事,入局边缘芯片还会更难。
但高通却做出了尝试。
18个月,性能领跑行业
2019年4月,高通宣布推出Cloud AI 100芯片,称它是“为满足急剧增长的云端AI推理处理的需求而设计”、“让分布式智能可以从云端遍布至用户的边缘终端,以及云端和边缘终端之间的全部节点。”
那时候,市场上也有部分人士持并不看好的态度。一些观点认为,2019年再入局云端AI芯片、并赶超最先进的云端AI推理芯片,似乎为时已晚。
而18个月过后,Cloud AI 100芯片在ResNet-50上的测试效果流出,引爆了行业内的深水炸弹。
从图中来看,横轴是功耗(越小越好,图中右边更小);纵轴是吞吐量(越高越好)。
即使是英伟达最新Ampere架构的A100芯片,吞吐量也不到25000,耗能却超过了300W。
从功耗来看,英特尔的Goya可低达100W,但吞吐量只能达到15000左右。
相比之下,高通的Cloud AI 100 PCle,吞吐量超过25000,却只需要75W。
这样的芯片性能,听起来让人难以置信。
而且,这个75W的芯片,支持最高每秒400万亿次(400TOPS)的算力。
高通到底在云端AI推理芯片上“施了什么魔法”?
先来看看它的内部结构:
16个AI内核(AIC)
支持INT8,INT16,FP16和FP32
4个64位内存控制器(LPDDR4×)
144MB的片上SRAM高速缓存
也就是说,通道的总系统带宽为134GB/s,但144MB的片上SRAM高速缓存设计,在片上保存了尽可能多的存储器流量。
此外,7nm的工艺节点,也有助于降低功耗。
而在封装上,高通采取了三种不同的形式:
DM.2e,15W,超过50 TOPS
DM.2,25W,超过200 TOPS
PCle,75W,约400 TOPS
其中,DM.2从外形来看,有点像两个相邻的M.2连接器,其中,M.2以尺寸孝传输性能高广受欢迎。
而DM.2e是dual M.2 edge的缩写,意为“两个边缘的M.2连接器”,是一种更孝功耗更低的热封壳外形。
从DM.2e的芯片设计来看,高通的目标似乎并不仅局限于云端。
将云端芯片“边缘”化
事实上,从行业消息来看,云端的确不是高通的终点。
这次的Cloud AI 100,也将目光放在了更长远、更现实的位置边缘人工智能(Edge AI)。
国际数据公司IDC的半导体研究总监Michael J. Palma曾表示:“人工智能的成功,在于部署到边缘的系统,在边缘系统中,神经网络做出的即时决策实际上可以创造价值,不受延迟和连接问题的约束而这些问题对云解决方案来说是个挑战。”
据市场调研机构MarketsandMarkets预测,全球边缘人工智能软件市场规模,将从2018年的3.56亿美元,增长到2023年的11.52亿美元。
在2018年到2023年的预测期内,年复合增长率(CAGR)为26.5%。
在Cloud AI 100芯片开始应用的同时,高通也同时发布了对应的边缘人工智能开发工具包Cloud AI 100 Edge AI SDK。
这一工具包,主要由以下3大模型构成:
Cloud AI 100芯片(低功耗、高性能AI芯片)
骁龙865模块化平台(负责应用&视频处理)
骁龙X55调制解调器及射频系统(5G连接)
这一工具包,除了上述芯片所包含的5G特性、能耗低等特点以外,目前透露的功能还有不少。
其中,支持24个相机同时拍摄分辨率达1920×1080的视频流、每秒25帧的高清视频。
不仅支持远程访问、可升级空中下载软件、可部署到户外,而且在PyTorch、ONNX、Tensorflow上都能运行。
此外,这一SDK还支持Keras、Caffe、PaddlePaddle等主流框架。
至于应用方向,包括新闻推送、广告、个性化视频、搜索、XR和游戏等,可以说是边缘的应用场景,它都能满足。
据高通近日公布的消息,Cloud AI 100正面向其全球部分客户出货,预计采用该产品的商用设备将于2021年上半年面市。
回看高通AI探索节点后的发现
“高通在AI研发方面拥有悠久的历史。”
高通人工智能及边缘计算资深总监John Kehrli表示:“高通正处于第五代移动端解决方案中,拥有超过11年的研发经验,因此,高通正在利用行业专业知识(进行研发)。虽然这是AI内核,它与移动技术并不相同,但我们可以利用那个领域的经验。”
实际上,早在2007年,高通旗下的Qualcomm Research就启动了首个人工智能项目,并于2018年成立Qualcomm AI Research。
2015年,搭载第一代AI Engine(人工智能引擎)的高通骁龙820发布,第二年,高通发布了神经处理引擎SDK。
在骁龙835、845和855发布后,2019年,高通正式发布第五代AI Engine骁龙865移动平台。
高通第五代AI Engine支持许多移动端的新老应用,包括AI实时语音翻译、人像留色、背景虚化、AI一键多拍、夜景拍摄与人像智能识别……
今年,高通也同样在AI赛道上飞速奔驰。
6月18日,高通推出全球首款支持5G和AI的机器人平台RB5。
此后推出了骁龙690 5G移动平台、骁龙750G 5G移动平台等,同样支持第五代AI Engine。
9月初,骁龙8cx第二代5G计算平台发布,支持AI Engine。
同样在近期,Facebook发布的Oculus Quest 2首次搭载了骁龙XR2平台,与前代平台相比,骁龙XR2平台的AI处理能力提升高达11倍,能够支持更多感知算法。
9月中旬,高通的云端推理芯片Cloud AI 100已经出货,同时,高通开始探索Cloud AI 100边缘方案开发套件,并已实际交付。
这是它在AI芯片行业、边缘人工智能迈出的新一步。
在全球人工智能产业的生态系统逐步成型的当下,AI已然成为各行各业加速发展的助推器。
高通也不例外,从手机、PC、XR到机器人等等,它在飞速推动各领域的AI升级。
目前,高通的所有系统级芯片都支持AI、或集成AI Engine。
对于AI芯片而言,就像产品的最终目的是落地一样,从“云端”到“边缘”也是一种必然的趋势。
如果只将目光放在眼下单一领域的利益发展、而非多角度进行探索,将难以在竞争愈渐激烈的行业中谋得生存。高通的全方位投入所取得的成果,让AI行业看见了新的范例。