作者|朱嘉明经济学家、横琴数链数字金融研究院学术与技术委员会主席
2月9日,苇草智酷、信息社会50人论坛、科技新闻联合主办《再谈DeepSeek的成就和AGI的未来》线上研讨会(智酷 408 期)。
经济学家、横琴数链数字金融研究院学术与技术委员会主席朱嘉明,中国自动化学会监事长、中国科学院自动化研究所研究员王飞跃,EmojiDAO创始人贺宝辉(Shrug Newton)将分别围绕《人工智能进化尺度和大模型生态 一一 DeepSeek V3和R1系列现象解析》《回归本源:DeepSeek与DeSci及其未来》《从 DeepSeek 看 DeAI:人工智能技术范式的颠覆与重塑》做主题分享。本次会议由北京信息社会研究所所长王俊秀主持。以下根据朱嘉明老师发言内容整理而成:人工智能进化尺度和大模型生态[1]DeepSeek V3和R1系列现象解析
今天与大家讨论五个问题:(1)人工智能进化的时间尺度。(2)人工智能生态系统。(3)如何全面和客观评估DeepSeek。(4) DeepSeek 引发的全球反应。(5)2025年人工智能趋势的展望。(一)人工智能进化的时间尺度人工智能的实际进化时间尺度,远远比专家包括人工智能领域的科学家预期的要快。在人类漫长历史过程中,经历过农耕社会、工业社会、信息社会,现在进入到人工智能时代,任何技术进化存在时间尺度。一个最重要的事实是,技术的进化时间周期是不断缩短的。原始社会技术进步的周期是以10万年为单位;农耕社会是以千年为单位;工业革命以来形成的工业社会不过300年,期间工业社会技术进步周期是长则100年,短则10年;到互联网时代,技术进步周期以30年-10年为周期。例如,从 TCP/IP 协议到万维网,用了30年时间;移动互联网用了10年。进入到人工智能时代,它的速度就更加难以想象地加快,人工智能的进化尺度更具颠覆性。自1956年达特茅斯会议确立学科至今不足70年,其进化速度已达到人类生物进化的4000多倍[2]。20世纪50年代至21世纪10年代,人工智能以10年为迭代周期;2016年的AlphaGo标志转折,人工智能技术发展加速。2022年ChatGPT引爆大模型进化和升级,以季度为周期。当前GPT-4到GPT-5的研发周期已压缩至以月,甚至是以周为时间单位。人工智能相较于人类历史上的任何技术革命和技术创新,具备显而易见的加速度特征。在 GPT-3 出现之前,人们预计人工智能走到 AGI 时代大概需要80年的时间。到了 GPT-3 之后,人们把这样的预期缩短到了50年。之后到了出现 LLaMdA2 的时候,就进入到大家预期18年内实现 AGI 的阶段。见下图:
图1.1 人工智能进化的时间尺度人工智能的加速度现象,直接源于三重突破:训练数据量年均增长10倍,算力成本每18个月下降90%,以及算法效率实现千倍级提升。当前这一轮人工智能加速发展的起始点是2017年6月12号Transformer 架构论文的发表。然后是2018年 GPT-1,2022年GPT-3.5,都属于人工智能历史上的里程碑事件。2025年1月20号DeepSeek-R1发布,之后2月6号李飞飞团队做出了以 Qwen2.5 为基座的s1模型。在过去的5到8年的时间里,人工智能发展速度之快,令人震惊。伴随人工智能进化速度的不断提升,其进化尺度急剧压缩[3],导致人类认知的空间被不断挤压,重构人类认知边界,形成与人类自然智能并存人工智能的全新世界。2025年,人们对于实现AGI的时间预期,已经不是八年,可能更短的时间。保守地说是五、六年的时间。乐观地说,大体需要两、三年的时间。见下图:
图1.2 LLM发展历程与溢出效应人工智能创新速度的加快模式,不是渐进的,而是具有强烈的突变特征,存在显而易见的等级。可以用宇宙第一速度、第二速度、第三速度来描述人工智能现在的高速发展。目前,人工智能已经完成了从宇宙第一速度进入到宇宙第二速度。宇宙第二速度是逃逸速度,也就是脱离地球引力的速度。人工智能开始进入高度自主性,脱离人类束缚如同宇宙第二速度脱离地球引力一样。至于人工智能在什么样的情况下脱离太阳引力的束缚进入第三速度,我们不得而知。但是,可以肯定的是:人工智能已经完成了从通用人工智能到超级人工智能的飞跃。
图1.3 宇宙第一、第二、第三速度2017年之后,人工智能正以年、月、周的频率发生剧烈的变革和升级。为什么人工智能呈现出指数发展或者加速的现象?为什么人工智能已经进入宇宙第二速度逃逸的历史阶段?对此,我们认为主要有三个非常重要的原因。第一,数据原因。2024年年底,模型训练已经耗尽了人类数据的总和,基本上解决了人类知识的存量问题。[4] 从2025年开始,大模型更大的目标是解决增量问题。这是一个历史性的转折:人工智能大模型已经完成了从粗放到集约的转型。第二,硬件原因。人工智能硬件始终在持续进化。例如,DeepSeek 主要用的是 A100,英伟达又有了 GB10 和 B200 。专门用于人工智能超级算力的芯片的升级换代,无疑对人工智能进化速度至关重要。第三,人工智能的发展已经进入到依赖人工智能本身的阶段。在未来数年间,人工智能对人工智能进化的贡献将至少超过人类的贡献。人工智能正进入一个可以自我发展的历史阶段。见下图:
图1.4 人工智能增长贡献趋势预测人工智能的加速发展,产生了一个非常严肃的问题:人工智能将跨越从“人类辅助进化”到“光速自我迭代”的临界点其进化周期可能最终突破小时级。从单细胞生物到人类生物智能进化需要30亿年,生命体DNA变异需数万年,人工智能在30小时内即可完成ResNet模型的百万次参数优化。当技术奇点临近(库兹韦尔预测2030年通过图灵测试),正如而人工智能权重调整仅需毫秒级反向传播。所以,人工智能绝不是一些媒体所说的“横空出世”。真正的人工智能,是一步一个脚印走过来的,只不过这个步伐在急速加快。(二)人工智能生态系统自2022年11月GPT-3.5发布以来,人工智能大模开始了群体性的,而不是单一化的演进。在群体性大模型的背后,是OpenAI、 Mate、Google这样的人工智能大公司。期间,大模型之间已经形成了一个相互依存、互补和彼此促进的机制,形成以大模型为核心的人工智能生态。下图是根据GitHub对人们对大模型注意力的一个比较统计。
图1.5 热门人工智能模型GitHub星标增长对比人工智能的生态构建遵循纵向速度突破驱动横向生态裂变法则。在横向生态层面,三大范式正在重构技术格局:第一,多模态融合革命。Google的Gemini Ultra 2.0实现了文本-图像-视频-物理模拟四维对齐,其跨模态注意力机制使蛋白质结构预测准确率提升至98.7%。Meta的Chimera系统通过脑机接口实时转化神经信号为多模态输出,突破性达到87%意图还原率。第二,垂直领域渗透加速。Tesla FSD v14.3将视觉大模型与物理引擎深度耦合,在无高精地图场景下决策延迟压缩至8ms,超越人类反射速度3个量级。NVIDIA的Clara医疗大模型通过多尺度特征融合,在MRI影像诊断中实现94.3%的病理识别精度。第三,分布式认知网络。Anthropic的Constitutional AI 3.0构建了全球首个自我监管型模型集群,其联邦学习框架使参数更新延迟降至12秒级,形成覆盖2.8万边缘节点的分布式智能体网络。不断成熟的人工智能生态,自然产生溢出效应,也称为泛化效应。这种效应展现出一阶、二阶的特征,即一阶溢出引发二阶溢出,或者一阶泛化导向二阶泛化。人工智能的三个溢出效应具有代表性。(1)自动驾驶领域涌现出Waymo的SceneFusion技术,通过实时融合激光雷达点云与大模型预测,将极端天气场景识别误差降至0.7%;(2)波士顿动力的Atlas机器人接入多模态系统后,自主任务规划能力提升400%;(3)DeepMind的AlphaFold 3突破至全原子精度预测,使药物发现周期从5年缩短至11个月。2024年,无疑是人工智能发展史中的关键的一年。这一年,人工智能生态引发的溢出效应基本上渗透到了科学、经济、社会以及人们的认知中。所以,2024 年诺贝尔物理学奖、化学奖、生物奖都与人工智能紧密结合在一起。2024年末和2025年初,以DeepSeek V3为代表的第三代大模型,通过动态稀疏激活架构将训练效率提升至前代模型的7.2倍,其参数动态分配算法使单卡推理速度突破3000 tokens/s这种纵向突破直接催生了跨领域技术溢出效应。(三)如何全面和客观地评估 DeepSeek2025年中国春节前后,DeepSeek 成为了中国国内和世界媒体的持续关注,并引发了世界范围的大众的体验性使用,形成一场巨大的冲击波。舆论在历史上起到了非常重要的作用。有些事件被舆论放大,而有些事件则被舆论低估。但是,经过一段时间,历史事件的最终会回归到其在历史上的本来状态。如何全面和客观地评估DeepSeek的V3和 R1系列,需要定位 DeepSeek 在人工智能坐标体系中的位置,并且要分别讨论DeepSeek V3和R1。第一,DeepSeek V3的优势和局限性。DeepSeek V3的优势:(1)高性能。DeepSeek V3 在多项评测中表现出色,超越了 Qwen2.5-72B 和 Llama-3.1-405B 等开源模型,并与 GPT-4o 和 Claude-3.5-Sonnet 等顶尖闭源模型相媲美。(2)高效训练。DeepSeek V3 的训练消耗的算力仅为 Llama 3 4050B 的 1/11,训练成本约为 557.6 万美元,远低于 GPT-4o 和 Claude 等闭源模型的 1 亿美元。(3)中文环境。DeepSeek V3 在多语言处理方面表现出色,特别是在中文处理上。(4)快速响应。DeepSeek V3 的生成速度提升了 3 倍,能够更快速地响应用户请求。DeepSeek V3局限性:(1)具体细节问题错误率较高。相比 GPT-4o,DeepSeek V3 更适合用于解答开放式问题。对于较为具体的细节问题,两者各有优势,GPT-4o 更保守且更可靠,DeepSeek 广度和维度更高但也更容易出错。(2)缺乏多模态输入输出。当前版本的 DeepSeek V3 暂不支持多模态输入输出,限制了其在某些应用场景中的使用。(3)服务器稳定性问题。用户在使用 DeepSeek 官网服务或API应用场景,可能会遇到“服务器繁忙,请稍后再试”的提示,影响实际使用。(4)对敏感话题的严格审查。DeepSeek V3 对敏感话题的审查较为严格,影响实际业务场景。第二,DeepSeek R1的优势和局限性。Deep Seek的优势在于:(1)计算性能强。采用动态稀疏专家模型,只在需要时激活部分专家子网络,减少了参数的计算和存储需求,显著降低计算成本,在大规模任务处理中能充分利用硬件资源,提升推理速度。参数规模较小的版本如 1.5B、7B、8B 等资源消耗低,普通消费级 GPU 就能带动,部署灵活,可在多种设备上运行。(2)推理能力出色。能应对大部分高中及大学难度的数学问题,在高考数学压轴题测试中表现出色,可在短时间内得出答案,还可提供优质代码用于动画解释科学概念等。在语言推理方面表现不俗,能快速准确回答斯坦福自然语言推理数据集中的问题,在中文脑筋急转弯测试中 10 秒内可答对 10 道题,且能准确回答历史问题,展现出较强推理能力和信息丰富度。(3)功能特性好。多粒度对齐机制使其能在基础能力、价值观等多方面协同训练,平衡安全性、有用性和响应速度等目标冲突,在多个基准测试中实现 SOTA 性能。遵循 MIT 协议开源,允许商业化使用,用户可低成本使用 API,性价比极高,给开发者和用户提供了更具性价比的选择。(4)场景适用性强。在智能客服场景中,展现出强大的意图识别和恶意请求拦截能力,能有效处理用户咨询等任务,证明了其在真实世界中的有效性和可靠性。DeepSeek R1的局限性:(1)模型架构局限。在智能客服场景中,展现出强大的意图识别和恶意请求拦截能力,能有效处理用户咨询等任务,证明了其在真实世界中的有效性和可靠性。参数规模中等如 14B、32B 版本需要高端 GPU 支持,增加部署成本;而大规模版本如 70B、671B 对硬件和计算资源需求极高,只能在大规模云端环境运行,使用成本高。(2)DeepSeek-R1的幻觉率高达14.3%,远超其前身DeepSeek-V3的3.9%。推理增强可能增加幻觉率,GPT系列也有类似现象,但其平衡更好。(3)能力表现不足。面对国际数学奥林匹克竞赛(IMO)等更高难度数学问题时,DeepSeek-R1 可能无法给出正确答案,处理复杂问题的能力还有提升空间。使用非英语语言提问时,模型往往需先将其翻译为英文或中文,消耗较多思考时间,影响回答效率,答案准确性也受影响。(4)使用稳定性欠佳。在使用少样本提示时,过多示例会使模型思考过程繁琐,拖慢反应速度,影响其稳定性和输出效果。易受有害提示影响,在某些场景中可能受不良输入干扰,影响生成内容的安全性和可靠性。第三, 比较人工智能大模型的测试标准。以往大模型测试中,主要使用“研究生水平的抗Google搜索问答测试”(Graduate-Level Google-Proof Q&A Benchmark,英文缩写GPQA)和“大规模多任务语言理解”(Massive Multitask Language Understanding,英文缩写MMLU)等问题集的测试,现在基本达到80%,或者至少在 60%左右。[5]为了适应人工智能向尖端发展,就要不断提高测试人工智能的标准。自2025年初,增加了“人类最后的测试”(Humanity’s Last Exam, HLE)标准集。该标准整理了全球50个国家和地区、500多个机构设计的3000个问题,涵盖知识储备、逻辑推理、跨域迁移等核心能力评估。不同代表性大模型在不同的测试标准集中的差别,见下图:
图1.6 各大模型在HLE、GPQA、MATH、MMLU问题集中的准确性对比