多知网10月23日消息,英伟达(NVIDIA)基于OpenAI的GPT-4打造Eureka,可自动训练实体机器人的动作指令,例如,转笔、开抽屉、使用剪刀等超复杂动作。具备零样本生成、编写代码和语境改进等能力,可对强化学习的奖励设计流程、代码进行大幅度优化,达到人类专家级水平。
英伟达AI高级研究总监兼该论文作者Anima Anandkumar表示,在过去十年,强化学习取得了空前成功,但仍面临许多困难,例如,奖励设计需要不断试错才能完成。Eureka的出现开创了一种全新的算法,将生成式AI与强化学习相结合以实现更高的执行效率。
强化学习是机器学习的一种类型,其目标是让一个智能体在与环境的交互中学习如何实现最优行为,以获取最大累积奖励。
在强化学习中,需智能体不断地从环境中获取状态,并在此基础上选择一个行动。环境对智能体的行动给出反馈,这个反馈称为“奖励”。强化学习的目标是找到一个最优的策略,关键元素包括智能体、环境、状态、行动和奖励。
研究人员对Eureka在多样化的实体机器人和任务中进行了全面评估,测试了其生成奖励函数、解决新任务等能力。
测试环境由由10个不同的机器人和29个使用IsaacGym模拟器实现的任务组成。首先,包括了来自IsaacGym(Isaac)的9个原始环境,涵盖了从四足动物、双足动物、四旋翼、协作机器人臂到灵巧手的多样化机器人形态。除了对机器人形态因素的覆盖,还通过包含双手操作基准中的所有20个任务,确保了评估的深度。
结果显示,Eureka可以生成超过人类水平的奖励函数。在29个任务中,Eureka的奖励在83%的任务中,超过了人类专家编写的奖励函数,平均规范化改进为52%。尤其是在高维灵活性环境中,Eureka实现了更大的收益。