OpenAI 团队相关 Q&A 访谈

NGA玩家社区 04-20

链接:

https://www.reddit.com/r/DotA2/comments/bf49yk/hello_were_the_dev_team_behind_openai_five_we/

施工 ing

翻个大意 , [ ] 内是我的加注

Q: 当 OpenAI 训练时,天辉夜魇胜率是否有差异?

A:天辉胜率高 5%

另一个 A: 我们还发现天辉和夜宴的行为也有微妙的不同。 对 objective [ 塔,兵营,火锅等 ] 的优先级,以及对线都有差异。 这些都可能影响最终发挥和胜率。

总体而言,这个胜率差异和人类比赛中的胜率差异很可能是不同的原因,比如说 AI 没有视角问题,但是也可能有一些共同点。

Q: 将来能看到完整英雄池吗?

A: 我们目前没有将英雄池扩大到全部英雄的计划,但是如果我们能大幅度提高训练效率,我们会考虑的

Q:将来还会向公众开放吗 ?

A: 现在没有这个计划

Q:你们是怎么为 OpenAI 选择英雄的?

A:项目开始时,我们选择了我们认为最容易训练的英雄 ( 远程,技能简单明了,等 ) 当初见成效后,我们添加了一些近战英雄和 4 号位英雄来让英雄池更平衡。

在这之后,我们添加了更有意思一些的英雄。 可惜的是这些英雄没有训练到同一个强度 .

Q:你能说下扩大版英雄池里还有哪些英雄吗?

A: 我们先加入了小黑和哈斯卡,当它们几乎和最初的英雄一样强后,我们又添加了骨法,屠夫,剧毒,白虎,风行。我们的目的是看 AI 是否能学会之前没有的机制 [ 比如蛇棒,对塔伤害技能,群体隐身等 ]

我们用非常小的规模训练了大约 ( 没有分身和召唤物的 ) 80 个英雄来看看效果

Q:Bots 把四个眼插到一个位置,还有在野点里留一个野怪的逻辑是什么?

A:我们有这么一个理论:OpenAI Five 把道具放下是为了解放物品栏,方便它们拿到更重要的道具。

这些全都是 " 学习 " 到的行为 [ 就是说这是 Bots 自己悟出来的 ] 所以我们只能提出理论假设,猜测 AI 认为这个时候把眼全插了是最优选择 [ 没有回答关于野点的问题 ]

另外一个 A:我们现在猜测当信使把道具送到英雄身上时,如果 bots 并不想要这个消耗道具,它会马上用掉这些道具。

至于野点问题,我们不清楚 bots 是否知道野点刷新的规则,尤其是野点刷新的时间。 简单的回答就是 bots 还没有野点刷新这个概念。

Q: 球球李了,能不关闭吗? 我想一直玩

A:我们也想啊。但是很可惜,Dota2 每更新一次就得从新训练一次

Q:在训练结束后,运行一个 Bot 需要多少计算机运算能力?

A: 打一把 Five 有 32 核 CPU 就够了

Q: 你们打算搞其他游戏吗? Moba,rts 或者 fps 之类的?

A:现在没有这个打算, Dota 中还有很多问题值得探索,目前 Dota 作为强化学习的研究环境还有很多可以利用的地方

Q:就是说,这个周末之后,OpenAI 的 Dota 部分算是搞定了吗?

A: [ 好长,我精炼一下 ] 这周之后我们不打算往竞技的方向研究了,在 17 英雄池的比赛打赢了 OG 之后,继续往竞技方面发展我们收获不了太多。 之后我们将利用 Dota 作为环境,研究强化学习和 AI。

希望它们能帮助我们学习算法,探索 [ 应该特指强化学习中的探索 ] ,环境结构,等等

Q: 模型多大?

A: 一亿六千七百万个参数,大约 668MB [ 每个参数似乎是 32 bit ]

Q:有人类队伍的平均天梯分吗?

A:如果选手没有公开数据,我们没有看这些数据的权限,所以这方面我们不比你们知道的多

Q: 你们有搞通用 AI 的计划吗?

A:我们公司章程里就有撒,https://openai.com/charter/

Q: 这周末你们会更新 AI 吗?

A:不会,现在只通过 selfplay 训练 [ 就是自己和自己打 ] ,不使用任何和人类的比赛数据

OpenAI 团队表示他们曾经将英雄池扩大到 25,甚至一度 80,发现在非常短的训练后大部分英雄都可以达到大约 3k 到 5k 的水平。

他们认为现有模型可以将一部分英雄学习到的行为传给其他英雄,而需要以数量级的增加运算力量。但是这目前只是理论,没有得到证实。将来我们有可能会重新考虑探索这方面。

[ 就是说 OpenAI 团队认为 bots 可以做到一通百通 ]

OpenAI 团队估算,bots 会在拿塔或其他 objective 之前大约 60 到 90 秒计划

有兴趣的可以下载下面的视频,大约 500mb

英雄发出的直线代表它们的预测

https://s3-us-west-2.amazonaws.com/openai-assets/how-to-train-your-openai-five/game1_og_minimap.mov

BP 阶段藏了个彩蛋。

自动 Ban 的 6 个英雄是

Omniknight

Pheonix

Ember

Naga

Ancient Apparation

Invoker

相关标签: dota dota2

NGA玩家社区
以上内容由“NGA玩家社区”上传发布 查看原文
最新评论

相关阅读

分享 返回顶部