网易互娱AI Lab在国际强化学习顶赛中夺冠 Athena AI超第二名50%

12月15日消息,在国际人工智能顶会(NeurIPS)上举行的“MineRL 2021 Diamond Competition”近日落下帷幕,来自网易互娱AI Lab的Athena AI在以《我的世界》游戏为竞技环境的比赛中拿下Intro赛道的冠军以及Research赛道的亚军,这是AI第一次在《我的世界》中挖掘到钻石。

据悉,该比赛由CMU、OpenAI、DeepMind、Microsoft Research等机构联合举办,是强化学习方向最负盛名的比赛之一。比赛自2019年起,每年在机器学习和计算神经科学领域顶级学术会议NeurIPS上举办,今年为第三届。

该比赛近年来吸引了包括腾讯AI Lab、华为诺亚方舟、清华大学、北大大学、中科院、香港中文大学、南洋理工大学、斯坦福大学、美国西北大学、德国比勒费尔德大学在内的众多工业界和学术界的相关研究人员。今年的比赛则有来自海内外近60支队伍、超过400名研究人员同场竞技。

本届MineRL比赛划分为了Intro和Research两个赛道。与Research赛道注重高效地利用玩家数据,对训练数据表征、训练规模等方面进行了诸多的限制不同,Intro赛道更加贴近游戏AI开发中的真实场景,需要参赛者根据游戏特性设计针对性的算法,最大限度地提升AI的水平。

在本次比赛中,在其他队伍更倾向于利用玩家数据集并使用层次化训练方法的氛围中,网易互娱AI Lab不破不立,另辟蹊径,在面对如此复杂的问题时,大胆放弃依赖主办方提供的人类数据,没有采用分层强化学习等被认为是解决该问题的一些关键技术,而采用端到端的纯强化学习方案,在自研的分布式强化学习框架中结合了自身在游戏AI领域积累的丰富工程实践经验,史无前例地训练出了能够从零开始获得钻石的Athena AI。

Athena AI通过合理地约束有效动作,达到了对状态的搜索空间进行剪枝的目的,使得AI在不使用分层策略的情况下依然能够高效地在巨大的状态空间中进行探索和学习。Athena AI的实现方案表明,即使是在多任务且任务之间有着复杂依赖关系的游戏场景内,单一的端到端模型的表现也是可以达到甚至超过精细设计的分层训练方式。

在最终Intro赛道的结果中,来自网易互娱AI Lab的队伍WinOrGoHome以645.55分夺得冠军,在100场游戏中累计21场都成功挖到了钻石,超越第二名的队伍近50%的分数。

另外值得一提的是,作为智能AI系统,网易互娱AI Lab研发的Athena AI目前已经落地应用于网易互娱旗下的多款游戏,从竞技对战到平衡性测试,涵盖了多种类型的游戏,产生了巨大的技术价值。

(文章来源:经济网)