Archive for 七月, 2018

[译文]OpenAI Five

原文链接  –  OpenAI Five

我们由五位神经元网络组成的队伍,OpenAI Five,已经开始在DOTA2中击败非职业队伍。虽然现在还有一些约束(译者注:功能不完善,文末有说明),我们的目标是在8月的TI8比赛上使用限定的英雄池击败最顶级的职业队伍。我们可能不会成功:因为DOTA2是现在世界上最流行、最复杂的电子竞技之一,拥有着富有创造力和积极态度的职业选手,他们一整年的进行训练为了在DOTA每年近四千万刀的奖金池里分一杯羹(世界上奖金池最高的电子竞技)。

OpenAI Five每天通过自我对抗的训练数据等值于正常游戏时间180年。训练使用大规模版本的Proximal Policy Optimization,运行在256个GPU和128000个CPU核心上 – 相当于去年TI7上AI Solo比赛使用的大规模版本。他对每个英雄配置非人类玩家数据,通过LSTM学习到了非常明显的游戏策略。这表明了强化学习通过大量且能完成的计算量可以实现长期训练 – 并不需要对训练、学习算法有突破进展,这和我们在开始这个项目时的估计相反。

为了测试我们的进展,我们会在2018年7月28号与顶尖玩家举行一场比赛,你可以在Twitch上在线观看或者申请成为挑战者。

Read More →