经过7万小时训练后,AI学会了玩《我的世界》

500

AI击败末影龙指日可待。

2019年,为了研究分析AI与儿童的智力差距,一群世界顶级科研人员在卡内基梅隆大学和微软的共同资助下举办了一场名为“MineRL”的比赛,以知名游戏《我的世界》为舞台,让接受训练的AI在限定的时间内寻找游戏中的稀有物品——钻石。

考虑到一位普通儿童在观看10分钟的教学视频后便能自主游玩《我的世界》,这项挑战在外行来看似乎并不是很困难,但事实是,参赛的AI们在长达4天的限时挑战里执行了超过800万次操作之后,仍未能顺利达成目标。

在这之后,MineRL竞赛成了一年一度的科研项目,每年都会有不少探索AI前沿技术的学者带着他们精心调教的AI来《我的世界》里挖钻石。而去年的MineRL大赛更是吸引了海内外近60支队伍参赛,超过400名研究人员同台竞技,其关注度可见一斑。

而到了最近,知名AI科技公司OpenAI终于实现了技术突破,提前杀死了比赛。根据他们于6月23日发布的论文来看,由他们训练的AI已经做到了熟练游玩《我的世界》,挖钻石对他们家的AI来说早已不在话下,毕竟它目前已经掌握了只有人类才能领悟的高阶玩法:

500

为了让AI真正做到像人类一样“玩游戏”,OpenAI的研究人员引入了一种新颖且便捷的AI训练法:视频预训练(Video PreTraining)。他们通过从相关合作方处获取《我的世界》演示视频以及与视频配套的键盘鼠标操作记录,并根据这些操作习惯建立逆动力学模型(inverse dynamics model)以推测模拟视频内的键鼠操作逻辑,此后再反复推演全世界的《我的世界》视频以模拟人类的游玩习惯。

500

在“被迫”观看了7万小时的视频后,OpenAI旗下的AI的操作已经相当传神:氧气稀少时会主动浮出水面、饿肚子了会啃腐肉充饥,而在研究人员的数据微调后,AI掌握了更加进阶的操作,包括搜刮随机村庄里的宝箱,以及搭建一个简陋的“火柴盒”。

500

至于同行们费尽心血钻研的挖钻石的方法,OpenAI也通过强化学习构建了一套科学合理的计算机模型。从获取木头开始,到在工作台上做出一把钻石镐,总计需要24000次操作,对于较为熟练的老玩家来说,完成这套流程的时长大概在20分钟左右,而如今的AI在经历了大规模训练过后,收集钻石的效率足以比肩人类。

500

目前,OpenAI已经向MineRL大赛提交了他们研究的预训练模型,而今年参赛的科研队伍也能在此模型的基础上根据自己的主攻方向进行微调。考虑到OpenAI优秀的训练成果,想必今年的MineRL大赛会是一场堪比神仙打架的高端对局,说不定不久之后,AI已经开始研究如何速通了。

全部专栏