关于ZAKER 融媒体解决方案 合作 加入

游戏达人!谷歌发布的这款 AI 会玩 57 款雅达利游戏 水平比 AlphaZero 下棋还高

前瞻网 11-22

人工智能会胜过人类吗 ?2016 年,谷歌开发的 AlphaGo 成为了首个击败围棋世界冠军的人工智能,向人类有力地证明了这一点。

此后,谷歌 2017 年又开发了 " 升级版 "AlphaZero,它是一种可以从零开始,通过自我对弈强化学习在多种任务上达到超越人类水平的新算法,堪称 " 通用棋类 AI"。

AlphaZero 不仅擅长围棋,还擅长国际象棋和日本将棋,陆续击败了世界冠军级人物,可谓 " 多才多艺 ",还登上了 2018 年的《科学》杂志封面。

现在,谷歌母公司 Alphabet 旗下的 DeepMind 又发布了一个更厉害的人工智能:MuZero。

与已经提前得知游戏规则的 AlphaZero 相比,这次的 MuZero 能够自动学习规则,并且在 57 款不同的雅达利游戏中取得了行业领先的表现,能够达到与 AlphaZero 在三种棋类中的表现相等的水平。

( 图表:在国际象棋、围棋、围棋和雅达利的训练中 MuZero 达到的评价,y 轴表示 Elo 等级 )

此外,在围棋方面,MuZero 的表现略优于 AlphaZero,尽管它使用的总体计算较少。研究人员表示,这表明它可能对自己的处境有了更深入的了解。

MuZero 将基于树的搜索与学习模型相结合 ( 树是一种数据结构,用于从集合中定位信息 ) ,它接收到的是观测数据,比如棋盘或雅达利游戏的屏幕图像,这一点与人类下棋、玩游戏时的状态相同。

随后 MuZero 将会不断迭代更新观测到的数据,并且在每一步都使用模型预测接下来的策略 ( 例如在哪里下棋 ) 、价值函数 ( 例如谁将得分 ) 和即时奖励 ( 如能够得到多少分 ) 。

简单地说,MuZero 自己探索出了游戏的规则,并在此基础上实行精确的规划。

DeepMind 的研究人员解释,MuZero 和 AlphaZero 的核心技术是强化学习的一种形式——即用奖励驱动人工智能朝着目标前进。

该模型将给定的环境建模为中间步骤,使用状态转换模型预测下一步,使用奖励模型预测奖励。

通常,基于模型的强化学习侧重于直接在像素级别对观察流进行建模,但是这种粒度级别在大规模环境中计算开销很大。

事实上,之前没有任何一种方法能够在视觉上很复杂的领域 ( 如雅达利游戏 ) 建立起一个便于进行规划的模型,即使在数据效率方面,结果也落后于经过调优的无模型方法。

该研究团队还重点观察了 MuZero 在围棋和游戏《吃豆小姐》中的表现。MuZero 每步只有 6 次模拟——少于每步模拟的可能次数,不足以涵盖《吃豆小姐》中所有八种可能的行动——因此,它学会了一种有效的策略,并 " 迅速改进 "。

研究人员表示,无论是在逻辑复杂的棋类游戏还是视觉上复杂的雅达利游戏中,MuZero 的表现都能媲美此前的 AI 算法,并且胜过最先进的无模型 ( 强化学习 ) 算法。

AlphaGo 的成功让越来越多人意识到了强化学习的激动人心之处。此前,机器学习领域顶级会议 NeurIPS 2019 主办的 Learn to Move 强化学习赛事中也出现了不少有意思的案例。

参赛者需要根据主办方提供的人体骨骼高仿模型中多达 100 多维以上的状态描述特征,来决定模型肌肉的信号,控制模型的肌体行走。赛事不仅要求模型的实时速度变换,还要 360 ° 范围调整行走方向。

百度基于飞桨的强化学习框架 PARL 再度蝉联冠军,且将第二名拉下 143 分。百度的模型中甚至出现了一些普通人也难以做到的动作,如从立定状态突然平顺地向后转向并且同时以要求的速度行走,并全程保持稳定不会摔倒。

在这个领域内的成功有助于了解人体的运动机制,从肌肉层面学习控制仿生机器人的运动。

以上内容由"前瞻网"上传发布 查看原文

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容