12 月 23 日,DeepMind 在官网发表博文 MuZero: Mastering Go, chess, shogi and Atari without rules,并详细介绍了这款名为 MuZero 的 AI 算法。
“爷爷” AlphaGo 提供了人类知识(Human Knowledge)和规则(Rules),因因此可训练出一个大的策略树,来完成搜索、以及帮助做出决策;
“爸爸” AlphaGo Zero 去掉了人类知识部分,而是只给 AI 提供规则,然后通过自我博弈,就能学习出自己的策略;
“孙儿” AlphaZero 则可通过完全信息,利用泛化能力更强的强化学习算法来做训练,并学会不同的游戏,如围棋、国际象棋和日本将棋。
“重孙” MuZero 则是前级阶段的升级版,即在没有人类知识以及规则的情况下,,它能通过分析环境和未知条件(Unknown Dynamics),来进行不同游戏的博弈。
Muzero 有望成为广泛使用的强化学习算法
DeepMind 攻克的第一个游戏就是 Atari,因为 Atari 是基准线,能测出算法到底是否管用。传统的强化学习,学习的是 Agent (智能体),而MuZero 对下棋规则(Environment )也做了建模, 与此同时它还能学会规则,这就是它的最大创新。但从机器学习角度来看,无非就是搜索空间变得更大,所以计算量会大大增加,理论上仍旧是强化学习。
对于其进步,重庆大学汽车工程学院副教授王科评价称:“Muzero 是目前强化学习领域里程碑式的工作。人类世界中的规则随时在变化,那么显然 Muzero 相比二代 AlphaZero 具有更好的生存能力。可以看到的是,Muzero 有潜力成为广泛使用的强化学习算法。”
对于它的应用前景,另一位论文共同作者、DeepMind 算法工程师 Thomas Hubert 告诉媒体说:“目前,我们正在尝试将 MuZero 用于优化视频压缩。”
除优化视频压缩之外,MuZero 的潜在应用还包括自动驾驶技术和医药生物研究领域里的蛋白质设计,比如设计一款基于蛋白质的作用于特定病毒、或细胞表面受体的药物。
王科向 DeepTech 重点展望了 MuZero 可能在自动驾驶领域的应用:“Muzero 作为 DeepMind 最新 AI 算法,具备了一定的类人成长和学习能力。”他以自动驾驶汽车举例称,目前的自动驾驶汽车离实现 L5 级完全无人驾驶还很远,还都需要在 ODD(Operational Design Domain)即运行设计域中运行,其原因是当前自动驾驶汽车技术无法应对未知开放环境带来的挑战,相信 MuZero 强大的学习能力和规划能力,能在一定程度上推动包括自动驾驶汽车在内的很多领域的进步。”
文章部分素材源自:DeepTech