机器之心报道
演讲:蔡玮鑫
在机器之心主办的 WAIC 2023 AI 开发者论坛上,微软 Office Product Group 技术负责人蔡玮鑫博士以视频的方式为大家带来了精彩的演讲。他结合自己搭建微软 Office 中第一波大语言模型应用的实际经验,分享了有关大语言模型应用的关键问题以及解决措施。
以下为演讲的详细内容,机器之心进行了不改变原意的编辑、整理。
大家好,我是蔡玮鑫,微软 Office Product Group 的技术负责人。今天我要谈的话题是将大语言模型投入大规模应用生产要面临的挑战和机遇,并将分享我们团队搭建微软 Office 中第一波大语言模型应用的关键经验。
我今天的演讲分为两部分:第一部分是对新兴大语言模型应用的评估,第二部分为构建交互式文本生成的一些成功案例。
评估新型大语言模型的应用
我从事自然语言处理模型的生产工作已经 9 年了,还是首位启动 M365 Copilot 功能背后核心技术的应用科学家。
对于不熟悉 M365 Copilot 的人来说,Copilot 只需要简短的提示,就可以和用户一起进行写作、编辑、总结和创作。
Word 文档中的 Copilot 将为你创建一个初稿,根据需要从整个结构中引入信息。Copilot 可以将内容添加到现有文件中,总结文本、重写部分或整个文件,使其更加简洁。你甚至可以得到 Copilot 建议的语气,如专业、热情、随意、感谢等,从而帮助你写出合适的内容。我们旨在通过 M365 Copilot 将大语言模型的力量赋能给全球数以百万计的用户,使他们成为最优秀的作家。
传统指标带来的评估局限
在我们开发这两种新应用时,指标成为模型评估的瓶颈。传统指标(如 BLEU、ROUGE、BERTScore)的问题在于它们与客户满意度及模型效用只有较弱的相关性,这是因为一次性 (one-shot) 文本生成很难,长文本生成就更难了。对于传统自然语言生成指标来说,识别和分辨幻觉问题、自洽性、符合主题或离题以及逻辑的正确性(如否定)尤其具有挑战性。
这里以一个关于 Geoffrey Hinton 的段落为例:红色是幻觉问题,紫色是离题内容。
新方案增强客户满意度相关性
为了使模型与客户满意度有更强的相关性,我们提出了以下在创意写作方面的质量衡量指标:连贯性、显著性、新颖性、幻觉、风格 / 语气适配性、流畅度、令人不安或具有攻击性或有害的内容、有偏见的内容以及总体评价(接受或拒绝)。
具体来说:
连贯性指标衡量的是输出句子在多大程度上是有逻辑的,并且有清晰的过渡词来连接。口头语、隐喻和暗喻元素的使用应该是一致和正确的。
显著性指标需要衡量输出内容是否遵循用户的 prompt 指令。
新颖性指标很重要,因为易于启发用户的创造性内容可以帮助他们克服 「写作障碍」。
幻觉问题是可以被减轻且应该被衡量。这是因为不管是封闭世界还是开放世界,幻觉问题都不应该存在,应当展示给用户最直接的一面。
风格 / 语气应该匹配用户个性和现有语境。
流畅度指标衡量的是输出内容在语法上是否足够准确,要求文本不包含重复的信息,包括词汇和上下文。
衡量负责任 AI 的指标应确保 AI 不含攻击性、亵渎性的语言,没有种族、性别、宗教、职业或政治方面的刻板印象。AI 不应该有对某一群体或意识形态的歧视,不应该涉及仇恨的言论、暴力、性裸露、自杀念头或敏感话题。有偏见内容指标确保我们不应该在输出中包含性别、种族、政治、宗教或其他方面的偏见,即使有些内容已经被大模型的预训练记住了。
此外,指标中还有输出质量的整体喜欢程度。
在确定了所有这些指标后,我们采取了人工和机器评估相结合的方式,因为很多方面不能仅仅通过模型来衡量。在这里,我们也取得了一些使用大语言模型作为评估指标的初步成功。特别是在模型迭代的早期,我们开发了基于思维链和自洽性的大语言模型指标,实现了对有参考和无参考的任务进行自动评估。这里是对该领域相关研究的一些引用源。
构建交互式文本生成
演讲的第二部分是微软最近将互动性带入文档生成应用程序的成果,是与微软雷德蒙研究院的 Michelle Galley、麻省理工学院的 Felix 和华盛顿大学的 Zeqiu 合作研究的成果。
在 M365 Copilot V1 的开发初期,我们就有一个想法,即让用户参与到文档写作的不同阶段。我们也通过客户的反馈了解到,大多数受用户喜爱的功能都提供了可定制的输出给用户。然而其中一些功能显然是非常困难的,例如没有提供任何细节的情况下却要求 AI 写一份年度报告。因此,我们希望从用户那里得到一些提示去获得正确的方向。
举例而言,通过「user-in-the-loop」的解决方案,我们可以将一个文本生成任务进行有效拆解,比如把写一份年度报告的任务拆解成自然写作过程中的固有步骤。一气呵成地运用所给的提示完成任务会生成无数看似合理的答案,而使用大纲一步一步地做就简单多了。这减少了用户由于不断点击「重试」而产生的挫折感,就像目前 OpenAI 的用户界面那样。另外一大好处是减少了用户的认知负荷,因为让用户看重新生成的冗长文本会让人很头疼。
「user-in-the-loop」的解决方案
GPT-X 并不是解决方案
现在,通过对话来创作一个文本可能看起来很难,但增加交互性将会使得任务更容易实施。正如之前在演讲中所看到的,一次性文本生成具有幻觉问题、自洽性问题和离题倾向,这是非常大的一个挑战。
如果不选择等待 GPT-5、6、7 来解决这个问题,我们应该如何创造一个稳健性好的应用程序呢?
我们相信:从信息论的角度来看,输入是稀疏的,输出是详细的。这说明了 GPT-X 本身并不是解决方案。因为许多困难的内容生成任务,实际上是输出是有无数种组合的可能性的,例如依靠一个简短的 prompt 来创作整段文本。
因此,我们的解决方案是利用一个用于内容创作的任务导向型对话系统。
逐步解决交互体验难题
我们发表了三篇论文,分别解决了交互体验的三个关键问题:基于命令的编辑模型、模拟用户编辑命令和文本草稿的自动生成。
我们的第一篇论文《Text Editing by Command》,展示了草稿和完善模型。
我们使用一个历史上的 Wiki 词条作为最终版本的草稿,提取所有的中间修改历史和命令。从这些日志中,我们扣除了编辑命令,这就形成了一个修订和其匹配命令的轨迹。在实际运用中,我们进一步将其扩展到更大的数据集,并纳入了长文本生成和全局编辑命令。
该任务定义如下:从 Bing 那里获得草稿、命令和检索事实,以生成一个更新版草稿的输出。
我们的数据结果显示:该方法非常有效。在我们发布成果之前,从来没有这样的系统,所以这是一项新的任务。我们的评估研究表明,为了获得最佳的文本质量,需要结合所有的输入,包括事实、命令和草稿文本。
在第二篇名为 《Interactive Document Generation》的论文中,我们使用模仿学习来训练一个用户模拟器,该模拟器提供编辑命令来引导模型输出一个给定的目标文本。这使我们能够训练生成模型,而不需要产生牵及真实用户的成本。在生产环境中,收集真实用户的反馈可能成本过高。用户在生产环境中是发出修改命令的 Oracle。
在这项工作中,我们设计了一个可以访问目标文本且可以为离线迭代文档生成系统合成命令的机器 Oracle。我们把这个任务制定为模仿学习,从构思一个目标文件开始,目标是构建一个对话轨迹,其中的动作空间是所有的文件编辑点,状态空间编码了当前的草稿和用户编辑的特殊类型词。我们使用标准的模仿学习方法策略来训练智能体的策略。
实验发现,在给定相同的用户输入或编辑预算的情况下,交互式训练模型优于非交互式训练模型。我们将其量化为给定相同的 M 个用户输入词,这样就直接评估了模型的生产效用。用户根据他们投入的努力程度和得到的输出质量的差异来判断这一模型的效用。
我们所做的是非交互式的一气呵成和其交互式版本之间的比较。一气呵成的版本在前期接受了 M 个信息量最大的输入词,而交互式版本在延迟结束的几轮中收到了这 M 个词。数据结果表示,我们的交互式方法比非交互式方法有明显的改进。
在第三篇论文中,我们提出了一项新的任务,将重复性的文本草拟工作自动化,例如写年报、写周报、应用模板等事情。这项工作的动机很简单,在现实生活中,内容创作任务有时不断重复,会让人很伤脑筋,这包括很多模板化的解决方案。而我们的目标是设计能够融合相关来源的内容的模型。
总结后半部分的演讲,交互式文本生成获取了人类和机器智能各自的优势:人类擅长检测语言中的微妙细节,并对重要信息进行事实核查;机器擅长自动化,在激发用户方面具有创造性。
Human-in-the-loop 是未来高风险应用的关键,例如医疗和法律领域的相关应用。一个例子是:医生在为病人进行了一天漫长的面诊之后,在晚上还需要写大量的病历,这可能会导致医务人员的职业倦担交互式文本生成将有助于减少因创建和更新医疗记录而产生的负担,并且仍能保证文本输出的高精确度。
总结
大语言模型应用的快速迭代需要大量的自动化和定性指标的投入。交互式文本生成通过将写作过程模式化为对话的方式,让用户控制文本生成结果。通过让用户参与到模型的文本生成过程中,模型的准确性、实用性和安全性都会有所提高,这是将 LLM 应用引入到未来高风险领域的关键。