打通系统和人的配合是最大挑战。
来源|多知
作者|徐晶晶
多年来,新东方一直是考研领域的头部选手。每年数十万的用户体量,也意味着用户群的庞大、多元与细分。基于此,近两年,新东方考研业务的关键词便是为不同用户提供更具针对性的服务。
在近日举行的发布会上,新东方宣布其自主研发的“新东方在线”App鸿蒙原生版正式上线,同时在“新东方在线”App鸿蒙原生版上线了全新升级的考研智能学习系统“慧学系统”,以期提升学生学习体验。
新东方也在这次发布会上首次对外公开考研业务AI落地的战略布局。就整个新东方集团而言,考研也是率先落子AI的业务板块之一。
01
新东方考研探索AI之路:“复刻老师的教学经验和教研经验”
“慧学系统”是新东方考研落地AI功能的集大成者,升级了“学”“练”“测”等环节。整体来看,尽管直到2024年年末才正式披露AI研发进展,但如果将前期探索算上,新东方考研在AI这条路上已跋涉了两年之久。
早期,新东方考研的探索集中在内部提效。例如借助AI拆解课程知识点并进行个性化匹配等。
到了2024年8月,新东方考研已在全国分校大范围落地“AI批改”这一核心应用,帮助老师减轻批改作业的负担。
而当下,新东方考研则研发了AI自生产题目系统,后者可根据学科核心知识点和考察难度自动生成考研模拟题。
从最开始将AI用于提效的浅层动作,到今天用AI批改、出题等更深层次的教学教研内容,一步一步,新东方考研在AI这条路上越迈越远。
新东方大学生学习与发展中心产品研发高级总监袁荣表示:“我们所有AI动作的主线都是‘复刻老师的教学经验和教研经验’,即把新东方优秀老师可以做到的事情用AI复现出来,让AI跟老师协同合作,提供给学生更好的服务。”
“我们一切动作的出发点都是为了更好地解决学生的需求和效率的问题。”新东方大学生学习与发展中心在线国内事业部总经理洪总结道。
具体来看,AI批改,为什么是团队率先找到的重点场景?
新东方大学生学习与发展中心考研项目总监李琳向多知分析,这一方面是源于学生的需求。每年,新东方都会调研考研学员需求,其中动态的学习规划和答疑是历届学员的共性刚需。AI批改功能则是考研群体众多核心需求场景(含答疑场景)的交集。
更为现实的需求是,由于写作是学生可以提升的重要单项,批改作文也就成了师生们在考研高峰期的集中需求。老师批改作文的速度与质量则直接影响学生的满意度。
“整个AI批改体系核心的业务逻辑是让学生做测试练习以检验学习效果,对学生来说意义很大,也是我们了解学生的重要方式之一。”袁荣补充道。
据团队透露,目前,AI批改功能支持考研全部科目客观题以及考研英语主观题和作文批改,并即将实现考研数学的主观题批改,经测试使用AI批改的准确率均达到97%以上,经人工校准后可实现接近100%准确率。
这些数字砌起的壁垒之下,是一段极其漫长的探索之路。
单就批改而言,尽管K12领域的AI批改产品丰富、技术相对成熟,但无法直接复用于考研场景。因为考研业务的AI批改研发难度要远高于K12业务,例如考研数学主观题的批改模型训练,新东方必须要从无到有地训练出能够匹配考研场景的批改模型。所谓批改,不是针对某一个考研单项的批改,而是要针对学生所有类型的需求提供全方位的AI批改解决方案。既涉及考研的多科目、多题型,还牵涉不同的细分需求场景,诸如作业场景的批改、答疑场景的批改、线下考试场景的批改等。
以考研数学的主观题批改为例,团队需要攻克两个挑战图像识别和逻辑推理,这也是目前市面上的大模型还无法完美解决的问题:
第一道坎是纸质公式的识别。AI得先识别学生写的是什么,比如考研数学里的微分符号、积分符号等。
第二道坎在于,即使识别正确,但在高等数学方面,AI 的推理能力还没有过关,这远比K12数学的推理要复杂得多。
而这两个问题的解决,关涉业务前景和学生体验,对新东方考研来说是非常重要的事情。我们愿意花更多的时间精力结合拥有的教学、用户的数据和场景做这件事情。”袁荣说道。
为了解决这两个挑战,团队“无所不用其极”,“针对目前 AI 的短板和缺陷,通过将老师的经验融入我们的混合技术系统里,给现有的基础能力打补丁、做升级,从而去解决上述缺陷。”
当然,有了AI批改,也并不意味着到达了解决问题的终点。新东方并没有直接将AI批改的结果呈现给学生,而是由老师们多次校正AI的批改结果。
袁荣解释:“在把所有结果给到学生之前,老师会复核一遍结果。复核不同于批改,如果批改要花 10 分钟,复核可能只花 30 秒,这会导致我们整个的吞吐能力和响应速度会大幅提升。这样既能避免 AI 的不足之处对学生的学习效果产生实质性的影响,同时也能保证老师给出学生反馈的时效性。所以我们基本上是用人和系统的磨合,解决人的产能短板,用人的把控来解决系统的幻觉问题,这两个结合到一起之后才是我们交给学生最终的解决方案。”
AI生题则是新东方考研在AI批改之外的另一大核心应用。
在练习和测评方面,针对考研真题量少的痛点,新东方不仅建立起丰富的数字题库,支持高频次练习和测试,还结合历年真题大数据及人工校验,研发了AI大模型赋能的自生产题目系统,可以根据学科核心知识点和考察难度自动生成模拟题。
所谓AI题目生成功能,是指考研真题量少,如果学生需要大量练习,就需要考研老师修改真题并产出模拟题。如今老师修改真题的过程可以被AI借鉴、由AI生题。
但如何保证AI生成的考研模拟题的质量?对此,洪表示,AI出题后会有验证环节,首先基于历年真题库的喂养,再加上老师人工校验(每位老师一道题一道题地做,做完之后再一道题一道题地录,再进行二次人工修改,同时针对知识点打标签)。
团队以题库较少的医综为例进行测试,发现AI生成题目的可用度接近100%,而且,AI第一批次直接生成的题量是4000道题,可以完全匹配到整个西医综合的6000个核心知识点,AI出题后,可以节约90%的人效。
接下来,新东方考研还会布局哪些AI应用?
袁荣透露:“未来一段时间,我们核心要做的是把 AI 的能力嵌入到学员整个学习旅程的各个阶段。让老师跟系统相互配合,形成良性有效的循环。”
更远的未来,袁荣认为:“从整个学习的角度来看,最核心的是,让教学或系统跟着学生的能力和节奏走,而不是让学生跟着我们的教学或者系统能力走。这可能是教育的一个大的方向。我们所有的努力都是让这件事情跟学生的贴合度更高一些,让学生在这个过程中更舒适、更有效,同时取得更好的效果。”
可以看到,当前,新东方考研的AI功能核心是面向老师提供服务。“本着严谨的角度,初期阶段,我们所有AI能力一定会通过老师这个端口对最终结果进行把控。”
团队也明确表示,目前暂不考虑研发单独的C端AI应用。“一方面,纯粹的C端应用提供的服务目前没有老师提供的解决方案好。另一方面,只有在内部的严肃应用中进行充分验证,同时交给外部用户也产生一些社会价值时,我们才会考虑做服务于外部用户的C端应用。”袁荣解释道。
02
打通系统和人的配合是最大挑战
据新东方大学生学习与发展中心考研项目总监李琳透露,研发AI教育产品,真正的卡点并非是技术,而是如何在提升老师的效率、同时让学生很满意的情况下,打通系统和人的配合,串联起整个链条的所有动作。
李琳强调,不能过分地放大技术本身的力量,还要考虑学生对老师提供陪伴的需求。“研发AI功能不是为了取代人,而是去帮助人,让人有更多精力去做更重要的事,比如进行针对性的解析和指导、提供鼓励和支持等等。”
李琳举了个例子。临近2025考研初试的这段日子,新东方考研的模考系统首次面向各个城市分中心落地应用,几乎每天,都有分中心在组织模考。“我们团队此前思考的一直都是如何提升模考系统批改的准确度。但实际上,学员们在模考环节面临的问题,往往是条形码怎么贴、老师在AI批改后给准确反馈的时效是多久……在打通系统和人的配合这件事上,我们反而花了2/3的精力。”
03
AI如何助力提质增效?
谈及AI应用的降本增效,洪透露:“过去,老师批改完一张模考试卷大约需要10分钟,现在人与系统协作仅需约2分钟就能完成,极大提升了批改的效率和准确度。”
“之前一名老师一天只能批改 30 份试卷左右,现在一个老师一天可以看 200-300 道题,批改环节可以节约90%的人效。而批改之后给学生的解析是由人(老师)来进行的。如果在批改环节可以节省老师的时间,就可以帮助老师在解析、在面对面答疑等部分投入更多精力。”洪说道。
“不过,新东方并没有因为人效提高而缩减人力成本,而是优化了教育的资源配置。”李琳进一步举例道, “如果之前只能组织3次模考,那在AI提效的情况下,我们就可以组织10次模考。”
04
“鸿蒙最吸引我们的,是它的整个生态和对于万物互联的开放性”
为什么要上线鸿蒙原生版App?
从用户需求来看,用户对鸿蒙版App的期待程度超过了团队的预期。
洪透露,本来新东方考研并不准备如此早地切入到鸿蒙生态中,但随着越来越多的学生升级鸿蒙系统、使用鸿蒙的设备,原来的安卓版App无法使用,因此,不少学员会咨询鸿蒙版本App的上线时间。
自2023年年初开始,新东方考研正式立项研发鸿蒙版App。新东方在线也是首批鸿蒙教育类App。“一开始我们并不准备把鸿蒙做得很重,但是上架了1.0版本之后,来自鸿蒙平台的用户的积极反馈是远高于其他平台的。这也表明学员更加认可鸿蒙版App,所以我们今年追加了将近200名员工投入到鸿蒙版App的研发。”洪说道。在关键的开发阶段,华为的工程师也驻场辅助开发。
从鸿蒙系统本身来看,在国际科技竞争日益加剧的背景下,推出具有国际竞争力的操作系统是中国科技自主创新的关键一步,而鸿蒙作为国产操作系统的代表,具有重要意义。
更重要的是,鸿蒙颇具生态潜力。袁荣补充道:“鸿蒙最吸引我们的,是它的整个生态和对于万物互联的开放性,这也是鸿蒙释放更大潜力的地方,其突出的核心能力有两点:
第一点是多平台的协同,鸿蒙系统基本上可以面向未来各种类型的终端和生态。今天是手机电视pad,明天可能是VR眼镜和其它可穿戴设备。
第二点是鸿蒙系统有很强的AI原生能力。这意味着,过去是在服务端提供AI能力,现在是终端提供AI支持能力,这为我们未来的应用提供了很多空间。”
05
考研市场格局“梯形”化
大浪淘沙后,李琳认为,从考研品牌的市场份额来看,如果说以前呈倒三角形分布(全国性的品牌的直营的机构占的市场份额占比较大),现在则呈现梯形分布,腰部机构增长势头良好。所谓“腰部机构”,是指在考研细分领域层面表现出色的一些考研机构。
“在满足需求层面,考研机构能有差异化的竞争优势,是保证其存活下来的重要因素之一。当然,如果在垂域扎得比较深,就必须考虑考试政策发生变化(比如换大纲、换教材、某个考试环节取消等)的潜在风险,这也倒逼考研机构必须提前进行中长期布局。”
关于考研培训的整体市场份额,李琳认为,尽管近几年来,课程培训类产品的市场份额在缩减,但仍有大量的需求场景尚未被完全开发,比如择校规划答疑产品/服务、出版物等,这也是机会所在。