界面新闻记者 | 查沁君
界面新闻编辑 | 文姝琪
2023年夏季,一条隐秘的行业情报在技术圈流传:私募巨头幻方量化持有的英伟达A100显卡数量突破万张,这个数字仅次于BAT等科技巨头。
“当时业内都在猜测,一家量化交易公司为何需要如此庞大的算力储备。”好未来(NYSE:TAL)CTO田密对界面新闻称。
这个谜题在2024年1月揭晓幻方正式推出自研大模型DeepSeek,其迭代速度震惊业界:1月发布V1版,5月推出V2版,目前已迭代至V3与R1版本,并在这个春节成功出圈,与电影《哪吒2》一同成为“国产之光”。
在这场由DeepSeek掀起的AI浪潮中,教育科技公司也不想错过这趟快车。
好未来、网易有道、云学堂、中公教育、猿辅导、编程猫、读书郎等一众教育机构密集接入DeepSeek,从线上教育到职业培训,从个性化学习到企业员工培训,DeepSeek在教育生态的卡位战中已经占据了一个无法忽视的重要位置,行业人士甚至将之称为“教育AI真正的诺曼底时刻”。
量变到质变
对于DeepSeek的“横空出世”,田密并不对此感到意外,团队从最一开始的V1版本就在追踪其进展,并应用到好未来旗下业务中。
目前教育公司普遍采取的策略,并非从零训练通用大模型,而是基于全球顶尖开源模型,叠加行业数据做后训练。在DeepSeek V3版本发布后,田密紧锣密鼓地安排团队启动“双线作战”。
一方面,模型团队基于DeepSeek做后训练提升学而思九章大模型的能力;另一方面,应用团队快速接入其API至学习机等产品,同时公司内部客服、视频脚本、讲义生成等环节也在测试提效。
效果令人惊喜,“V3版本大幅领先其它开源模型,甚至产生量变到质变的变化”。
其它教育公司也感受到DeepSeek带来的变化。据网易有道(NYSE:DAO)提供的内部评测数据显示,DeepSeek-R1在有道K12测试集上的准确率高达88%。
网易有道首席科学家段亦涛指出,DeepSeek-R1凭借完善的计算基础设施、高效的DualPipe训练框架、低精度训练的创新应用,以及稀疏连接、合理分层设计等架构优化,实现模型性能的大幅提升与成本的有效控制。
尤为值得一提的是,DeepSeek-R1采用的“强化学习”技术,摒弃了传统的PRM方法,直接以结果为导向进行奖励,促使AI学会更高效地思考,并展现出初步的反思能力。
高途(NYSE:GOTU)联合创始人罗斌在接受多知网采访时透露,该公司接入DeepSeek后也收获了一些显著变化:比如,内部协同工具AI助手在接入后,日访问量提升200%。
在用户产品侧,高途高中数学测评准确率从此前最佳情况的74%提升至90%左右,如果知识点下沉到初中、小学,DeepSeek-R1的准确率会提升得更显著,可能接近于真人的状态。
答疑是推理模型在教育领域应用的关键场景。过去与模型沟通对提示词工程要求高,需精心撰写提示词才能得到较好答案,但现在DeepSeek具备深度思考和联网能力,与它沟通像正常人说话一样表达需求,它就能完成任务。
不同于以往的通用大模型,DeepSeek-R1展现了理科天赋,在数学、编程和推理等关键领域表现优异。
网易有道CEO周枫认为,这对于教育应用非常关键,可以说教学过程中最大的场景,最难的问题都依赖理科大模型的能力。“理科大模型的成熟将大大拓展AI在教育和其它行业中的应用”。
在编程领域,编程猫自称是全国首个将编程软件与DeepSeek深度整合的人工智能品牌,目前该公司旗下编程猫全套编程软件矩阵接入DeepSeek,覆盖图形化编程、Python及C++三大核心教学场景。
以编程猫自研的图形化编程软件源码编辑器为例,当孩子提出创意想法“我想做个飞机大战游戏”,传统做法是由AI先生成一套代码,孩子只需按部就班地跟着仿写,再进行运行测试,动手跟着做即可。
而在接入了DeepSeek大模型的AI助手后,整体的学习思维逻辑开始转变,孩子需要在软件内置的AI助手中提出创意,AI助手不再直接输出代码,而是将创意拆解为可实现的任务模块,引导学生通过问答交互自主构建游戏逻辑框架,深度实现孩子与AI协同共创编程作品。
“本质上是两套自主技术体系的化学反应,让AI重构交互方式,同时也驱动教育评估体系发生根本性变革。”编程猫相关负责人谈及该公司与DeepSeek的融合。
首先是教学模式的改变,让学生从“学工具”到“练思维”的转变,以“创造性主题”取代“编程知识点”为课程核心;其次,教育者角色将不再是传统的“传道授业解惑”,而是引导孩子将AI落地为现实生活的实际应用。最终落脚回到学生能力的培养。
在编程猫看来,学生能力的培养将是超越编程的深层价值,编程作为“实现创意的语法”,最终目的不是培养程序员,而是培养学生拥有理解非线性因果关系的复杂系统思维、正向循环“失败-洞察-突破”的韧性创造力、解决具体问题的技术人文素养和快速适应未来人机协作的核心能力,培养驾驭“生物智能×人工智能”的复合型人才。
与其他领域不同,教育领域对内容的准确性、安全性有着更高的要求。猿辅导尤为强调了这一点,该公司表示,猿力大模型由专业教研团队基于新课改的教学目标,对模型的回答内容进行调优,对符合青少年儿童的内容有着更专业的边界设定。
例如,当孩子试图与大模型聊“王者荣耀”等游戏内容时,小猿将不会直接回答,而是引导孩子回归学习或阅读内容本身。
DeepSeek的爆发式增长也带来甜蜜的烦恼。日活跃用户突破2000万后,DeepSeek官网搜索功能可用率骤降,暴露出云资源储备的短板。
“我们不得不自建搜索引擎接口,将必应搜索结果实时喂给模型,同时接入各大云厂商及官方原版的API,若一家不稳定可迅速切换。”田密称。
行业也随即展开自救:华为、360等厂商提供安全防护,手机厂商协助流量分流,形成独特的“中国式协作生态”。
重构竞争格局
对于整个行业来说,DeepSeek的横空出世,实质性地改变了教育AI的竞争逻辑。
“过去基于60分基础模型能做到90分就是优势,现在对手拿着90分的基座稍作优化就能达到93分,差距被不断缩小。”田密坦言。
换言之,过往行业格局中,头部企业凭借算力投入和算法积累,能在60分的开源基座上打造出90分的垂直模型,形成显著技术壁垒。但当基础模型直接跃升至90分水平时,各家的优化空间被压缩至5-8分的狭窄区间。
这种技术平权现象,使得中小教育科技公司首次获得与行业巨头同台竞技的机会,不过,若想超越可能还要多花些力气。
有行业人士对界面新闻表示,头部教企过往积累的教育数据是核心资产,也是训练各家垂直大模型最关键的来源,即使Deepseek提高了行业整体基准线,但头部企业仍保有数据优势。
田密认为,这整体是好事,有助于催生AI原生应用。一直以来大家期待的大模型时代的原生AI产品尚未诞生,而随着DeepSeek开源技术的提升,将降低应用开发成本,让更多原本无法尝试的事情变为可能,从而加速大模型时代原生APP的涌现。
周枫也认为,高质量开源和低价模型会带来AI的大繁荣。“杰文斯悖论”一种经济现象,指随着技术进步导致资源使用效率提高,资源消耗量反而增加的现象。这是DeepSeek将给千行万业带来的一大变化,中国团队将AI的成本降低,必将加速行业发展,很快将有更多的AI使用,更多的算力需求,更多的就业机会,和更快的科技和经济的进步。
对于应用层来说,更大的难点在于,如何激活模型的专业能力。
以AI老师为例,如何让它扮演专业教育老师,辅助撰写讲义、课件等,这不是技术难题,而是业务难题,即如何将通用大模型与自身领域专业知识更好结合,以得到更专业的结果。
尽管DeepSeek作为通用大模型已足够优秀,但在田密看来,该公司旗下业务涉及的专用场景仍采用的是其自研九章大模型,通用场景才会选用DeepSeek。
如学而思学习机内置智能助手“小思”的泛聊问答功能,将从其它的通用大模型换成DeepSeek,但拍照搜题、批改、答疑、精准学等专用功能,用的是九章大模型。
新东方优编程董事长朱宇在接受多知网采访时同样提到,用DeepSeek很难直接去教学,还是会有幻觉,有错误的题型,甚至有错误的答案。教育公司做微调之后,效果会更好。
减少幻觉有两种解决方式:一是用DeepSeek的解决方案来训练和微调模型,训练成本降低了很多,二是输出的环节也要做调整。比如,一些题目的分析要做调整,再喂到模型中去调整输出。
DeepSeek的崛起,正在重新定义AI在教育中的角色,关于大模型是否将替代老师辅导学生的讨论也未曾断过。
在田密看来,过去一年多来,大模型用于教学仍存在诸多问题,比如会产生幻觉讲错知识,不能适配学生年级,存在超纲讲解情况,对话互动存在自问自答,不能很好理解或推理用户输入。
“通用大模型应用于行业还有很大差距,从优秀的DeepSeek到出色的AI老师,还有很多工作要做,不能过于乐观。”田密称。
他以自动驾驶为例,教育行业的L5是能完全替代人类老师的全自动AI老师,目前大模型的发展只是让行业从“L2辅助驾驶”提升到“2.5”的水平,距离L3、L4仍有距离。
这些技术瓶颈的背后,是教育场景的特殊性对AI提出的独特挑战,也同样意味着,教育AI的进化不仅是算法问题,更是对学习科学本质的理解问题。
当技术参数竞赛逐渐让位于场景创新竞赛时,教育公司的核心命题不再是“如何做出更好的模型”,而是“如何创造不可替代的教育价值”。
那些能够将AI的认知优势与教育规律深度融合,在规模化与个性化之间找到平衡点的机构,终将在这次技术浪潮中实现从工具革新到教育范式的跨越。