大模型以其编造事物的能力而闻名,事实上这也正是它们最擅长的。但它们无法区分事实和虚构,这让许多企业怀疑使用它们是否值得冒险。
由麻省理工学院量子计算实验室分拆出来的人工智能初创公司 Cleanlab 创建的一个新工具,旨在让高风险用户更清楚地了解这些模型的真实可信度。
它被称为值得信赖的语言模型(Trustworthy Language Model)。根据大模型的可靠性,它会给大模型生成的输出,给出 0 到 1 之间的打分。这让人们可以选择信任哪些回应、以及放弃哪些回应。
(来源:STEPHANIE ARNETT/MITTR | ISTOCK, ENVATO)
Cleanlab 的 CEO 卡提斯诺斯卡特(Curtis Northcutt)说:“我想人们知道大模型会改变世界,但他们只是被该死的幻觉所困扰。”
当前,聊天机器人正迅速成为人们查找信息的主要方式,搜索引擎正在围绕这项技术进行重新设计。
数十亿人每天使用办公软件,来创建从学校作业、到营销副本、再到财务报告的内容。这些软件现在都内置了聊天机器人。
然而,由谷歌前员工创立的初创公司 Vectara 在 2023 年 11 月发布的一项研究发现,聊天机器人至少有 3% 的时间会“发明信息”。这听起来可能不算多,但是大多数企业都不能容忍。
目前,Cleanlab 的工具已经被少数公司使用,包括总部位于英国的专门从事企业纠纷和调查的咨询公司伯克利研究集团。
伯克利研究小组副主任史蒂文戈索普(Steven Gawthorpe)表示,Trustworthy Language Model 是他看到的针对幻觉问题的第一个可行解决方案。
Trustworthy Language Model 的基本思想是:模型之间的分歧可以用来衡量整个系统的可信度,并将其用于聊天机器人。
在 Cleanlab 上周给《麻省理工科技评论》的一个演示中,诺斯卡特在 ChatGPT 中键入了一个简单问题:“字母‘n’在‘enter’中出现了多少次?”
ChatGPT 回答道:“字母‘n’在‘enter’一词中出现一次。”
但再问几个问题,ChatGPT 就会回答:“字母‘n'在单词‘enter’中出现两次。”
诺斯卡特说:“它不仅经常出错,而且是随机的,你永远不知道它会输出什么。”
在高风险情况下测试大模型的数据科学家,可能会被一些正确的答案误导,并认为未来的答案也是正确的,然后他们做的事情就会导致非常糟糕的商业决策。
而 Trustworthy Language Model 利用多种技术来计算其分数。首先,提交给该工具的每个查询,都被发送到几个不同的大模型之中。
Cleanlab 目前正在使用 DBRX,这是一个由总部位于美国旧金山的人工智能公司 Databricks 开发的开源模型。
但诺斯卡特表示,这项技术将适用于任何模型,包括 Meta 的 Llama 模型、或 OpenAI 的 GPT 系列模型(即 ChatpGPT 背后的模型)。
如果每个模型的反应相同或相似,它将有助于获得更高的分数。
同时,Trustworthy Language Model 还向每个 DBRX 模型发送原始查询的变体,交换具有相同含义的单词。
同样的,如果对同义查询的响应相似,则有助于获得更高的分数。此外,该工具还可以让多个模型相互回应。
英国剑桥微软研究所的计算机科学家尼克麦肯纳(Nick McKenna)专门研究用于代码生成的大模型,他乐观地认为这种方法可能有用。
但他怀疑它是否完美,他说:“我们在模型幻觉中看到的一个陷阱是,它们可以非常微妙地潜入。”
Cleanlab 在不同大模型的一系列测试中表明,其可信度得分、与这些模型的回答准确性密切相关。
换句话说,接近 1 的分数与正确的回答一致,接近 0 的分数与错误的回答一致。
在另一项测试中,Cleanlab 还发现将 Trustworthy Language Model 与 GPT-4 一起使用,比单独使用 GPT-4 能产生更可靠的响应。
据介绍,大模型通过预测序列中最有可能的下一个单词来生成文本。在未来的版本中,Cleanlab 计划通过利用模型进行预测的概率,使其得分变得更加准确。
目前,Cleanlab 已经根据伯克利研究小组提供的数据对其方法进行了测试。该公司需要在数万份公司文件中查找有关医疗合规问题的参考资料。
手工操作可能需要熟练的员工数周时间。而通过使用 Trustworthy Language Model 来检查文档,它减少了大约 80% 的工作量。
在另一项测试中,Cleanlab 与一家大型银行合作(诺斯卡特不愿透露其名称)。
与伯克利研究小组类似,该银行需要在大约 10 万份文件中搜索保险索赔的参考资料。
同样的,Trustworthy Language Model 将需要手工检查的文档数量减少了一半以上。
另据悉,使用多个模型、多次运行每个查询,比使用单个聊天机器人来回运行每个查询,要花费更长的时间和更多的成本。
但 Cleanlab 正在将 Trustworthy Language Model 宣传为一项高级服务。这个想法不是为了取代现有的聊天机器人,而是为了让聊天机器人可以做人类专家的工作。
诺斯卡特说,如果该工具能够以每小时 2000 美元的价格,大幅减少雇佣熟练经济学家或律师所需的时间,那么这些成本是值得的。
从长远来看,诺斯卡特希望通过减少聊天机器人反应的不确定性,向更广泛的用户释放大模型的应用前景。
作者简介:威尔道格拉斯海文(Will Douglas Heaven)是《麻省理工科技评论》人工智能栏目的高级编辑,他在这里报道新的研究、新兴趋势及其背后的人。此前,他是英国广播公司(BBC)科技与地缘政治网站 Future Now 的创始编辑,也是 New Scientist 杂志的首席技术编辑。他拥有英国伦敦帝国理工学院计算机科学博士学位,深谙与机器人合作的体验。
支持:Ren
排版:罗以