展会信息港展会大全

科学家实现大模型动态选取推理,优于静态推理技术等方法
来源:互联网   发布日期:2025-02-16 22:07:00   浏览:269次  

导读:近年来,增强大模型的推理能力引起了广泛关注,比如近期OpenAI 的 o1 作为一个推理增强的大模型就引起了 AI 社区的广泛关注。美国乔治梅森大学岳牧荣博士和所在团队注意到,先前很多研究已经证明了各种提示策略在帮助大模型进行推理方面的有效性,例如让大模型逐步思考、回答前反思、使用程序解决问题等。图|岳牧荣(来源:岳牧荣)然而,这些方法通常将静态的、预定义好的推 ......

近年来,增强大模型的推理能力引起了广泛关注,比如近期OpenAI 的 o1 作为一个推理增强的大模型就引起了 AI 社区的广泛关注。

美国乔治梅森大学岳牧荣博士和所在团队注意到,先前很多研究已经证明了各种提示策略在帮助大模型进行推理方面的有效性,例如让大模型逐步思考、回答前反思、使用程序解决问题等。

科学家实现大模型动态选取推理,优于静态推理技术等方法

图|岳牧荣(来源:岳牧荣)

然而,这些方法通常将静态的、预定义好的推理行动路径统一应用于所有问题,比如对所有的问题都要先逐步思考、进行反思。

而忽略以下两点:第一点,根据每个问题的具体特征不同,最佳的推理动作可能也不同,比如对于解方程问题,在解决完方程后加入一个验证过程会有所帮助,但对于一个知识性的问题,大模型的自验证很难带来提升;第二点. 不同的大模型所适合的推理动作也不相同,比如以代码为主要训练数据的大模型可能更适合写代码解决问题。

因此,研究人员的目标就是让大模型学习到根据不同的问题情况和自身的能力动态的选取的推理动作。

在近期一篇论文中,他们提出了 DOTS,这是一种通过最佳推理动作轨迹搜索使大模型能够动态推理的方法。

该方法涉及三个关键步骤:i) 定义可以组合成各种推理动作轨迹的原子推理动作模块;ii) 让目标大模型迭代探索和评估的过程,为每个训练问题寻找最佳动作轨迹;iii) 使用收集到的最优轨迹训练大模型来规划未见问题的推理轨迹。

与此同时,他们提出了两种学习范式,对于闭源的大模型如 GPT 系列,他们将微调外部大模型作为规划器来指导闭源的大模型;对于开源的大模型,他们直接微调大模型本身使得推理动作的规划能力可以被内化到大模型自身。

科学家实现大模型动态选取推理,优于静态推理技术等方法

(来源:arXiv)

研究人员在多个推理任务中的实验表明,他们的方法始终优于静态推理技术和 vanilla 指令调整方法。进一步的分析表明,本次方法使大模型能够根据问题的复杂性调整其计算,将更深层次的思考和推理分配给更难的问题。

日前,相关论文《DOTS:通过最佳推理轨迹搜索在 LLMS 中学习动态推理》(DOTS:LEARNING TO REASON DYNAMICALLY IN LLMS VIA OPTIMAL REASONING TRAJECTORIES SEARCH)已被国际表征学习大会(International Conference on Learning Representations)2025 接受。

科学家实现大模型动态选取推理,优于静态推理技术等方法

图 | 相关论文(来源:arXiv)

审稿人指出,这篇论文提出了一种动态推理方法,可以使模型根据输入问题的特点决定适当的原子动作,并且进行了全面的实验来证明所提出方法的有效性。

DOTS 方法的核心在于通过动态搜索最佳推理路径,这种动态理能力在需要高度复杂推理和灵活应对不同问题的场景中,DOTS 方法将展现出独特的优势,如在智能助理中的使用中,用户可能会交替提出一些非常简单的问题,比如“今天的天气怎么样”或者非常专业的问题,DOTS 能够根据通过动态调整推理路径,优化用户交互体验。

除此之外,DOTS 方法可以被认为是一种收集高质量训练数据的方法,在未来的大模型 post-training 中也可以被用来提升推理能力。

这项研究始于岳牧荣在腾讯西雅图人工智能实验室实习期间,在姚文林博士(现任亚马逊高级应用科学家)的指导下展开。

大模型的推理能力一直是学术界和工业界的热议话题,因此他们最初的目标便是探索如何进一步提升这一关键能力。

最初,他们深入探讨了当前主流的提升大模型推理能力的方法,包括提示工程和指令调优。然而,在分析的过程中,他们逐渐发现现有方法的局限:这些方法往往缺乏一个至关重要的环节,即缺少让大模型在回答问题前主动进行思考的环节。

就像人在面对复杂的数学题时,会主动评估是否需要借助计算工具;在玩 24 点游戏时,会自觉检验自己提出的方案是否合理。但现有的大模型,尤其是开源模型,却欠缺这种灵活的思维模式。

他们认识到,这一问题的根源在于训练数据的缺失。传统的训练数据通常只包含问题和答案,而对于如何选择和使用推理动作的策略指导却少之又少。譬如,一道数学题的训练数据可能只展示了解题步骤,大模型只知道正确答案,却没有尝试各种的推理行为,比如分解问题或验证结果是否对获得答案有所帮助。

基于这种思考,他们构思了本文这种全新的方法:给定训练数据,让大模型自主探索各种可能的推理动作组合,并从中学习到最佳策略。在面对不同问题时,大模型通过尝试问题分解、使用代码、结果验证等推理动作来解决问题。

他们根据尝试的结果,让大模型学习如何预测最好的推理路径,从而优化自身的推理能力。

研究中,他们不断调整和完善方法。例如,初期的实验效果提升不显著,他们便反思是否需要为大模型提供更明确的指导例如通过解释来帮助其理解和学习推理动作。

经过多次的改进后,他们在多个数据集和多种设置下进行了广泛测试,实验表明大模型的推理能力在各个数据集和不同的条件下都有所提升。实验的成功不仅验证了他们的方法有效性,更重要的是,它展示了大模型具有巨大的潜力:他们可以通过训练让大模型具备能深思熟虑,自主规划推理动作的能力。

后续, 他们希望在更大规模的数据集上进行训练,结合更多的推理动作,同时探索如何更好的利用搜索获得的结果。

目前,岳牧荣是美国乔治梅森大学的在读博士生,师从姚子瑜教授,研究方向是是设计高效、安全且经济的大模型代理来处理复杂的推理任务。

参考资料:

1.https://arxiv.org/pdf/2410.03864

运营/排版:何晨龙

赞助本站

相关内容
AiLab云推荐
展开

热门栏目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港