嘉宾 | 蒋宏飞
编辑 | 林晓婷
为了提升用户体验,作业帮将 NLP 技术应用到业务的提质增效上,沉淀出了智能质检平台 IQC、文本智能标注平台 FTP 等自研平台,也产出了很多在 NLP 中应用深度学习的可供参考的实践。
伴随着深度学习场景的增多,NLP 技术也得到了快速发展,作业帮作为 K12 教育平台,对用户体验提升有很高的诉求,所以他们将 NLP 应用在业务的提质增效上,沉淀出了智能质检平台 IQC、文本智能标注平台 FTP 等自研平台,也产出了很多在 NLP 中应用深度学习的可供参考的实践。
InfoQ 采访到了作业帮自然语言处理技术负责人蒋宏飞博士,请他谈一谈 NLP 技术在作业帮在线教育基础设施建设方面的实践和经验。更深入的内容可以关注蒋博士在 5 月 29-31 日 QCon 全球软件开发大会(北京站)上的演讲话题。
InfoQ:基于什么样的业务背景,作业帮引入了 NLP 技术?
蒋宏飞:作业帮每天都会产生海量的文本数据,其中蕴含着大量有价值的信息,在引入 NLP 技术前,文本数据分析主要还是靠人工,无法对数据进行全面覆盖,相对于机器的客观稳定,人的表现会存在不稳定和不一致的可能性,最重要的是文本信息处理不及时,如此会造成热点问题无法及时准确发现、用户体验优化点定位不准确不全面、课程体系迭代无法真正基于用户反馈进行驱动等问题。因此,基于业务需求,我们采用了 NLP 技术。但在应用初期,由于数据平台、业务流程平台等基础设施不太健全,算法对业务的价值无法正确评估,导致在采用 NLP 技术过程中遇到了很多阻碍。随着技术与业务间相互推动促进、快速迭代,这些问题都逐步得到解决。
InfoQ:作业帮目前有哪些 NLP 新技术落地的进展,是否沉淀出一些技术平台?
蒋宏飞:NLP 方面,一些基于统计的技术方案仍在使用,有些场景下性价比还是比较好的。
随着 NLP 新范式,特别是预训练 + 微调路线的逐步工业化落地,作业帮的很多 NLP 任务也开始大规模采用,比如很多分类打标任务都是以 Bert 框架为基础的。
从效果上看确实有提升,不过综合考虑数据的规模以及新技术框架的计算效率,我们也会根据不同业务落地场景设计不同的前置过滤技巧来大幅度提升整体效率。
随着支撑业务范围的不断拓展、技术方案的迭代创新,会持续积累出大大小小各种模块、各种实践经验,为了达到高效整合复用以更好更快支持业务效果,基础性技术平台的建设就非常重要。其中,比较有代表性的,也是我将在 5 月 31 日 Qcon 全球软件开发大会(北京站)分享中重点跟大家交流的两个平台:
智能质检平台 IQC:虽然名称中含限定词“质检”,实际上不限于质检业务上,可以理解为一个快速配置文本匹配模式的平台;
文本智能标注平台 FTP:它是一个基于主动学习、自学习等机制,支持人机协同 / 多种抽样策略以及预训练模型的文本标注模型训练平台。
InfoQ:您上面提到的 IQC、FTP 两个平台的主体架构大概由哪些模块组成?
蒋宏飞:IQC 设计上考虑了可扩展性、易用性、以及智能性等因素,实现了质检业务层和算法技术层面的完全解耦,支持快速扩展到新增业务场景,交互使用上实现了所见即所得,利用前沿的 NLP 技术对策略编写提供智能推荐支持,另外开发了自动策略更新模块,可以根据线上数据进行迭代式增量自动优化。它主要包括以下 5 个模块:
数据获取模块:对接各个业务线的'待质检'数据,形成统一数据表示;
策略配置模块:质检人员手工配置质检策略规则的交互模块;
策略解析匹配模块:完成'待质检'数据和策略规则的匹配;
测试模块:支撑在规则配置时的验证,主要基于存量测试集以及增量数据抽样;
智能策略优化模块:包含策略规则配置时的同义项推荐,以及基于人工验证数据的策略自动更新 (提升准确度及召回度)。
FTP 平台是以作业帮在线教育业务场景来驱动设计的,主要特点包括:支持动态标签体系的标注,支持不同标注模式 (异常数据富集、模型快速扩标等),支持在迭代环节中灵活选择多种抽样策略等等。它的模块主要包括以下几点:
数据获取模块:方便使用者进行候选标注数据的拉娶筛选;
预处理模块:各种粒度的文本预处理,比如分词、短句切分、泛化、去噪音、聚类等;
数据抽样模块:支持多种抽样策略,以提升人工标注的效率和价值;
模型训练模块:基于已标注数据进行模型训练,以支持对未标注数据的预测;
数据标注模块:人工标注交互;
策略推荐模块:根据当前标注情况,智能推荐下一迭代轮次的最佳策略;
数据管理模块:历史数据的复用,标签体系管理等。
这里可以强调一下,IQC 和 FTP 平台都是作业帮产研团队完全自主设计研发的。
InfoQ:NLP 已经是深度学习的核心应用领域,是否可以列举目前作业帮在 NLP 中应用深度学习的最佳实践有哪些?
蒋宏飞:NLP 在业务中的使用场景比较具体,也比较丰富多样。而深度学习式的 NLP 也算是目前的主流路线,只要能满足性能要求,一般会考虑深度学习。
深度学习比较依赖海量数据来学习和训练,作业帮的业务场景每天都会沉淀大量的标注数据,比如双语翻译数据、练习测评数据、批改订正数据等,更会沉淀大量非标注数据,比如用户拍搜、用户反愧服务沟通、业务咨询等。
基于这些标注数据和无标注数据,通过相应的深度学习模型及训练算法(有监督、无监督等),可以产出丰富的技术服务:
自研的面向 K12 用户英文学习的机器翻译服务,用来支撑学生单词查询、句子翻译等具体学习需求;
自研的中文作文评分服务,可以为 K12 提供自动作文评分以及点评分析;
用于内部提效、大量的文本结构化分析工作,比如用户满意度调研智能分析、各种业务维度的标签化工作。
应用场景非常丰富,而且还在不断扩展,很多都是"创新 ->应用 ->创新 ->..."技术和业务互相推动的模式。
InfoQ:NLP 技术在作业帮各个在线教育业务场景中的创新探索,有哪些值得业界借鉴的经验?
蒋宏飞:这里分享一些体会吧。在线教育是全新的业务模式,相对其他互联网业务模式而言,链路相对较长,人的服务相对重,非结构化数据多。我们除了探索直接面向学生用户的各种学习工具应用外,还有一大块是做服务的提效提质。
在业务发展初期,业务迭代变化非常快,很多底层的数据基础设施不会太完善。刚开始会面临数据不全、数据不及时等现实问题,如何在现有情况下通过技术方案的设计以及上游的推动协同,让事情先做起来,主要是靠自驱意识。
另外,教育的用户很丰富,不同学科学段、不同城市、不同教材版本、不同上课节奏,都会给技术在业务上落地带来挑战。从数据的获娶标注、模型训练、上线再到随时间或者业务迭代变化导致的任务定义的变更,NLP 模型的调整、迁移,都需要有统筹考虑,尽量能做好复用和高效迁移。
再有就是,NLP 相对语音技术、图像技术来说,和业务贴的更紧密些。因此,需要 NLP 算法同学尽可能全面深入了解业务,和业务老师保持及时沟通。更重要的是,NLP 算法同学要主动多想哪些技术可以改善 / 变革现有业务做法,敢于尝试敢于创新。
InfoQ:2021 年,你们计划在哪些 NLP 技术方向上做更多应用探索?
蒋宏飞:在技术上,有不少方向需要探索和尝试落地。比如:
多标签分类,特别是标签体系动态变化下的多标签分类技术上做更多探索和沉淀,以支持业务上对用户 / 老师的全面深入分析;
零 / 少样本学习,新业务场景层出不穷时,需要快速应对支持;
预训练模型的领域适应方面,需要不断积累和迭代,以支持好更多具体场景任务;
多维细粒度用户倾向性分析,用户对教育服务的体验反馈是非常多维的,技术上充满挑战;
多模态学习方面,有些场景下,单靠文本特征单一,结合语音、图像特征有潜力进一步提升算法效果。
嘉宾介绍:
蒋宏飞:长期从事机器翻译、智能问答、文本结构化分析等研发工作。在 ACL、Coling 等会议上发表文章多篇。拥有 20 多项文本挖掘分析、机器翻译、智能交互技术方面的专利。目前在作业帮主要负责业务涉及:自然语言基础技术模块研发、智能质检、文本数据结构化分析、学习工具类。
5 月 29-31 日,QCon 全球软件大会 2021 北京站【人工智能驱动业务实践】专题下的《NLP 技术促进在线教育业务提效的实践和创新》将详细讲述更多作业帮在 NLP 技术方面的实践经验,欢迎大家来到现场与蒋宏飞博士深入探讨。