关于AI，沈向洋院士最新发声！-人物报道-人工智能实验室AiLab-中国人工智能网-Powered by AiLab.cn

关于AI，沈向洋院士最新发声！

来源：互联网发布日期：2024-11-23 06:40:17 浏览：407次

导读：11月22日，美国国家工程院外籍院士、粤港澳大湾区数字经济研究院创院理事长沈向洋在2024IDEA大会上分享了其对人工智能“三件套”（算力、算法、数据）的最新思考。他表示，在技术大爆发时期开展创新，对技术的深度理解尤为重要。站在商业的视角，新技术快速冲入市场，则意味着技术需要理解需求。技术要在持续不断的反馈和创新中，与市场完成匹配。从“摩尔定律”到“黄氏定律” ......

关于AI，沈向洋院士最新发声！

11月22日，美国国家工程院外籍院士、粤港澳大湾区数字经济研究院创院理事长沈向洋在2024IDEA大会上分享了其对人工智能“三件套”（算力、算法、数据）的最新思考。他表示，在技术大爆发时期开展创新，对技术的深度理解尤为重要。站在商业的视角，新技术快速冲入市场，则意味着技术需要理解需求。技术要在持续不断的反馈和创新中，与市场完成匹配。

从“摩尔定律”到“黄氏定律”：算力需求持续增长

整个计算行业过去四五十年的发展，最重要的一件事情是算力的不断提升。根据英特尔创始人之一戈登摩尔(Gordon Moor)提出的摩尔定律，当价格不变时，集成电路上可容纳的元器件的数目，约每隔18-24个月便会增加一倍，性能也将提升一倍。或者换句话，性能每2年翻一倍，价格下降一半。

然而过去这十几年随着人工智能的蓬勃发展，特别是深度学习的发展，对算力的需求更加提高。英伟达提出了以其创始人黄仁勋的名字命名的“黄氏定律”，认为GPU（图形处理器）将推动AI性能实现逐年翻倍。

“从以前的百亿级，到现在的千亿级、万亿级，大模型参数规模越来越大，对训练的要求越来越高。要训练这样的模型，数据量要增长，性能要随之提升，对算力的需求也会呈现出平方级的增长。所以我经常讲一句话，那就是‘讲卡伤感情，没卡没感情’。”沈向洋感慨说道。

同时，沈向洋评论称，英伟达是过去十几年，IT行业、人工智能行业最了不起、最成功的一家公司之一，它硬生生把自己从一家做硬件、芯片的乙方公司做成了甲方。“大家对英伟达的未来充满信心，最重要的是对算力的需求。这也解释了为什么过去十年英伟达的市值涨了300倍。”

从GPT到o1：人工智能发生范式转移

沈向洋表示，从2017年开始Transformer架构（一种基于注意力机制的深度学习模型架构）出来，人工智能、深度学习、大模型基本上是沿着Transformer这条线“堆”数据、“堆”算力。GPT4推出之后，尽管GPT5一直没有出来，但OpenAI仍然推出了一些新技术突破的东西，包括多模态GPT-4o。最新的o1（OpenAI最新发布的大语言模型）推理学习能力展现出的人工智能的范式转移非常值得我们认真思考。

GPT系列做的事情是通过预训练来预测“下一个Token（吞吐量）”。技术背景是把所有的数据进行“聪明的”压缩，它可以很快给你答案。只要问一句话就能得到一个结果。而新的范式变革是增强学习，即可以自行改善的“Learning（学习）”，在给出答案之前还有一个后训练、后推理的过程。

实际上，增强学习并不是一个新鲜事物。AlphaGo下围棋就是用这种增强学习的方法打败人类世界冠军的。不过新的增强学习“打法”更为通用。以前做一个系统只能解决一个问题，比如下围棋或者做其他工作。今天o1不仅可以做数据、做编程，还可以做物理、做化学等等。“我觉得接下来这几年，算法沿着SRL（强化学习）这条道路走下去，一定会有令人惊艳的全新突破。”沈向洋表示。

从海量到高质量数据短缺：未来大模型需要合成数据

公开数据显示，GPT3的训练用了2T（即2万亿Token）的数据。GPT4大概用了20T（即20万亿Token）的数据，几乎相当于今天能找到的所有清洗过的互联网数据。GPT5要比GPT4有长足的进步，预测数据量大概会达到200T（即200万亿Token）的规模。

为了进一步阐释大模型训练所需的数据量规模，沈向洋列举了几个例子：1万亿数据相当于500万本书，或者20万张高清照片，亦或是500万篇论文。一个人从小学、中学、大学到念完大学的时候，真正学到的东西相当于1000本，也仅仅是0.00018T的数据。人类历史上所有的书加起来大概也只有21亿Token的数据。

“现在互联网上已经找不到那么多高质量的数据了，人工智能向前发展要造数据、合成数据，这有可能带来大模型创业的下一个百亿美金问题，那就是怎么来合成数据。”沈向洋表示。GPT系列模型的训练依靠的是互联网语料数据，比如文本、图片、音频、视频等多模态数据，o1的训练则需要强逻辑性的数据，很多数据是网上没有的，需要做一些优质的合成数据。

“我们不能盲目的造数据，而是要有理有据，有逻辑关系的存在。要先采集真实数据，建一个语境图谱，然后再合成数据，把这些合成数据放进大模型继续做预训练和推理。”沈向洋介绍说道。据他透露，IDEA DataMaker（数据合成平台）知识驱动大模型数据合成技术已经可以将模型推理准确率提升25.4%以上，平均节约成本达85.7%。同时，IDEA大模型合成数据加密训练技术可以打破数据孤岛，助力私域数据的安全流通。相较于基础模型，该技术可将大模型专业推理能力提升12.8%~24.1%，加密接近无损甚至少量提升。

作者丨宋婧编辑丨赵晨美编丨马利亚监制丨连晓东

相关热词： 沈向洋黄仁勋英伟达院士黄氏深度学习

关于AI，沈向洋院士最新发声！
来源：互联网发布日期：2024-11-23 06:40:17 浏览：407次

相关内容

AiLab云推荐

最新资讯

本月热点

热门排行

推荐内容

在线客服

热门栏目HotCates

关于我们

版权声明

关于AI，沈向洋院士最新发声！ 来源：互联网 发布日期：2024-11-23 06:40:17 浏览：407次