OpenAI仍在挤牙膏式更新,但当下资本市场的目光归于博通。人们更关心谁会给行业带来更多变化,谁会给明年带来更多惊喜。
去年底,未尽研究发布《看DAO 2024》报告,对今年生成式AI最可能发生最值得关注的十大领域做出展望。事实上,十有八九都已在上半年被行业所兑现。
只不过,整个2024年,仍然属于GPT-4时代。这是展望与事实偏离最大的一项,也是令行业最为遗憾的一项。
AI会选一条不同的道路前行吗?未尽研究将在年底发布新一年的《看DAO 2025》报告,会继续对明年大模型与生成式AI的发展趋势做出展望。
在此之前,先让我们简要回顾一下,今年都发生了什么。
展望一:智能体作为任务助理进入更多应用场景和业务流程。回顾:智能体是2024年最热的领域之一。它能提升推理效率,吴恩达团队基于GPT-3.5的智能体性能甚至超过了GPT-4。智能体工作流正在引领白领工业革命,甚至破解数据中心碳排放不可能三角。微软发布了一系列商用AI Agent,Salesforce财报重点也是Agent Force。越来越多对话机器人集成了智能体功能,如Claude3.5的Artifact。谷歌加大了智能体产品布局的力度,OpenAI正在加速产品化,重点押注了智能体。
展望二:操作系统集成下一代大模型,成为下一代操作系统
回顾:微软与苹果初步交付下一代操作系统,中国也实现了本土化。苹果发布了AppleIntelligence,还将集成OpenAI等第三方模型,与中国厂商的合作还在反复调试。微软将旗下所有应用贴上Copilot标签,但系统阅读用户行为的功能备受争议。安卓系统的代表是谷歌的Pixel9 pro。华为HarmonyOS NEXT操作系统发布,独立于iOS与安卓,首次融入盘古大模型5.0。
展望三:生成式AI制作的影视剧大量出现,冲击影视行业发生剧变回顾:早期尝试惊艳,内容行业尚未剧变。OpenAI的Sora融合了扩散模型和Transformer,验证扩展定律继续生效,但版权问题引发部分艺术家抗议。Luma、可灵、Vidu、Veo、pixeldance等追随者正在加速,强调对多主体一致性与上下文理解的突破。可口可乐用大模型生成了圣诞广告宣传片。谷歌与World Labs等在构建世界模型的同时,为视频生成提供了新的方向。
展望四:人形机器人开始量产,自学习与环境互动能力进一步强化回顾:多家企业小批量订单用于科研与测试。智元展示了千台量产,这是特斯拉明年的目标。宇树科技G1低于10万元,宣布离“iPhone时刻”不超过5年。英伟达围绕GR00T机器人通用模型加速布局供应链。OpenAI重启研究,投资了1X等数家企业。汽车流水线是最大的实习基地。中国人才与资金流动活跃,地平线、小米与华为等智能驾驶核心人员纷纷投身具身智能。
展望五:终端设备加载AI模型,推动换代升级回顾:AI原生硬件热度没有持续太久,传统端侧加载AI模型正在重塑用户体验。联想率先交付真正的AI PC,足以容纳完整而又最小可行的通用推理能力。高通X Elite等芯片将端侧NPU算力推向50TOPS门槛。雷朋智能眼镜全年出货百万副,Meta与谷歌都准备好了下一代产品。汽车行业言必称端到端大模型,特斯拉的CyberCrab终于揭晓,2026年投产。
展望六:下一代闭源大模型推出,开始出现胜任人类水平的AGI“火花”,但规模边际效应递减展望七:数据来源的深度和广度进一步开拓,进一步规范,更多合成数据与自然数据结合用于大模型训练回顾:高质量公开数据快速耗尽。GPT-5训练遭遇了文本数据不足问题,OpenAI正在与主要媒体集团签约合作。数据清洗的ScaleAI估值飙升到138亿美元。Anthropic与Grok等企业被指游走于灰色地带,违规爬虫,漠视隐私。合成数据备受重视,英伟达开源了Nemotron-4,但使用不当导致模型污染崩溃。工业数据是具身智能的关键,但长期缺乏有效的数据治理。
展望八:苹果真正入局,力争复现AI“iPhone时刻”回顾:苹果打破常规节奏发布了M4芯片,将AppleIntelligence集成入iOS18。它的个性与自然的交互体验,在全技术栈保护用户隐私,成为AI“iPhone时刻”的样板。苹果看好小模型(SLM),发布了DCLM-7B,还评估了规模参数低于2B的大模型的硬件和计算策略。它与OpenAI在模型与混合AI的合作,与AWS在芯片与云的合作,开始重塑当前的算力基础设施格局。
展望九:一些开源模型及AI应用,因为无法建立起商业模式将面临生存危机展望十:小模型结合软硬件应用,新物种涌现回顾:领先开源模型追平发布已久的前沿封闭模型。Llama、Gemma、Mistral、Qwen历次迭代,开源“小杯型”参数规模覆盖更广;苹果专注小模型,微软也不参与大模型竞争。中国算力紧缺,倒逼DeepSeek与零一等架构创新,训练出性能更强的小模型。它们可以部署于端侧设备。卡帕西认为10亿参数就能构建认知核心。HuggingFace托管模型已破百万,生态丰富。