NPC有灵魂了吗?大语言模型与智能体设计的新进展

游戏带来的独特体验在于让人沉浸在一个引人入胜的世界与故事中,并让人经历一段与众不同的旅途。其中的情节与世界观又往往通过玩家与NPC的互动一点一点展开。然而,无论NPC有多生动,程序设置的本质终会提醒我们:你面前的并非某个角色,而是游戏制作者。

因此,许多玩家渴望一个开放世界,到处是与人类无异的智能NPC,如《西部世界》或《刀剑神域》中那般。在AI技术跳跃式发展的2023年,我们似乎能看到一些雏形与尝试。

500

《瑞克和莫蒂》中的电池宇宙

斯坦福和Google的研究团队近期设计了一个实验并发表了论文,目的是验证AI是否已经达到可以模拟人类复杂社交互动的程度。

自由聊天?不,是虚拟生活

500

在实验中,研究人员创建了25个AI虚拟角色,每个角色都设定了独特的个人信息,包括姓名、职业、人生目标等,这些AI角色被置入一个小镇中。基于大语言模型技术,这个虚拟小镇上的AI能够进行日常生活对话,对环境进行交互。虽然并不完美,但已为其在更真实场景下模拟人类丰富社交提供了基础。

500

它们能自发产生话题,传播信息,就公共事务形成不同观点。在实验的虚拟小镇环境下,AI角色Sam宣布要竞选市长,这一信息很快在其他AI角色之间传播开来。其中,Tom表示支持Sam的决定,因为Sam一直致力于小区工作,可以为小区发展作出新贡献。Tom后来与John讨论Sam的选举胜算,两人都预期Sam会成功当选。

Sam要竞选市长的消息成为虚拟小镇的热门话题,一些AI角色表示支持,一些则持观望态度。尽管AI角色的对话并不总是自然流畅,但能在一定程度上模拟人类社会关系的复杂性,实现信息的有效传播和讨论,形成不同的立场和态度。

在虚拟小镇实验中,AI角色Isabella的初始设定是需要在情人节举行一个派对。Isabella在咖啡馆工作,她逢人便邀请其他AI角色参加她的派对。Isabella的女儿Maria也邀请她暗恋的对象Klaus来参加。除Isabella举办派对和Maria暗恋Klaus的初始设定外,其他行为如传播派对信息、布置派对场地、邀请其他人等完全由AI自主完成。

在NPC的八卦下,最终有12个AI角色知晓这个派对信息,但只有5个角色实际出席,包括这对相互暗恋的角色Maria和Klaus。其他7个AI角色没有出席,研究人员后来分析了他们的理由,有4个原本表示有兴趣但没来,另外3个找了其他的理由。这里AI展现出一定的观察力和反思能力,可以在一定程度上解释角色放鸽子的理由。

500

NPC是如何有灵魂的?

那么研究团队具体是如何让这些NPC看起来更“人性化”的呢?他们制定了一种智能体架构来检索记忆,动态地更新他们过去的经验,并将其与智能体的上下文和计划结合,这些经验、上下文和计划可能相互加强或相互矛盾。整个架构有三个主要的组件:记忆、计划和反思。每个组件负责执行特定的功能。

在记忆与检索的方法中,记忆流将智能体当前的经历和观察提供给语言模型,语言模型据此可以输出更加符合人类行为的指令与内容。检索功能则会根据不同的情况进行选择,如最近访问的事件以及事件的重要性与相关性。这些方法有助于语言模型选择与当前情况相关且重要的记忆,让智能体的反应更加连贯和具体。

计划描述了智能体未来的行动序列,并帮助智能体的行为随时间保持一致。一个计划包括位置、开始时间和持续时间。例如,快到截止日期时,Klaus可能选择把一天时间花在桌前起草研究论文。

500

反思则是一种更高级别的记忆,可以回顾记忆和做出更高层次的推理。当智能体对事件的感知达到一定阈值时就会进行反思,根据智能体近期经历提出的问题,然后,语言模型进行回答并引用相关记忆作为证据。问Klaus最想与谁在一起,他选择Maria而不是与他互动最频繁的人,因为Klaus热衷学术研究,而Maria也总是在做学术研究。

500

最后,研究者还让25名人类参与者来评估不同类型的智能体在人性方面的可信度。结果显示,生成式智能体虽然在语言产生方面达到较高水平,但在理解和生成非语言信息方面,如个性、情感和社交性等方面,其水平还不及人类。自然语言模型在非语言的理解与生成方面存在局限,而如何解决与克服这一局限也是未来研究的方向。

大语言模型会颠覆传统AI吗?

在以往的游戏中,虚拟世界中的角色时有真实之感,这归因于游戏创作者在游戏性与故事性之间的完美平衡,以及玩家在游戏中同人物与环境互动的沉浸感。

我们也能实际体验到游戏中NPC的智能化。《荒野大镖客2》里NPC会记得玩家曾经帮他吸出过蛇毒,再次相遇时会给予感恩和回报。《巫师3》开场支线任务里的NPC会欺骗并利用并玩家的善良来达到自己的目的。但这些游戏一般采用编写AI行为的方法来与玩家展开互动性叙事,如有限状态机和行为树等。

500

当人们说AI会取代人类时网友就会掏出这张图

虽然它们可以处理基本的社交互动,但不可能完全涵盖开放世界中所有可能的互动行为范围。考虑到制作人员的工作量和效率,这些方法通常简化了环境或行为的维度,尚未解决在开放世界中可信智能体的问题。

较为开放的沙盒游戏如《矮人要塞》和《环世界》是叙事过程生成技术的典范。里面每个NPC都在编写自己的个人历史,细看却发现某些事件之间还是缺乏关联性和逻辑性。

使用机器算法训练的AI往往出现在那些易于定义奖励的对抗游戏中,这些奖励可以被学习算法优化。这种方式设计出的AI非常智能,在某些方面甚至超越人类,如星际争霸战中的Alpha Star和Dota 2中的Rerun能击败职业选手。

500

可以看出,传统的基于状态机、行为树的而设计的AI和较近的基于深度学习设计的AI在游戏中都有各自典型的运用。斯坦福大学的这个研究项目巧妙地向我们展示了如何将GPT-3.5这种基于深度学习的大语言模型融入游戏之中。现在,让游戏中的AI与玩家直接对话也不是什么新鲜事了。

一款使用大语言模型的游戏《Origins》就曾有玩家上传了游戏实机体验视频。就目前的演示来看,玩家可以直接与游戏内NPC对话,去询问证人找出事件真相。玩家分别与清洁机器人和人类进行了对话,与机器人的对话较为流畅,但人类这边的语调和表情就“机械感”十足,相当违和。

500

《辐射4》近期也出现了一款可以为游戏自动生成对话和全程配音的Mod。目前该Mod为游戏添加300多条全新对话,在一定程度上解决《辐射4》“对话轮系统”的限制, “对话轮系统”只提供了四种选项,限制了玩家的自由度。AI生成的声音已经与原声非常相近,但目前听起来还是略微“缺乏感情”。

500

SE免费新作《SE AI技术预览:港口镇连续杀人事件》一经推出就“特别差评”,好评率不足10%。据介绍,这款游戏运用多种AI技术,自然语言处理(NLP)、自然语言理解(NLU)、语音转文字(STT)等。实际体验下来所谓的自由对话就是纯噱头,只有在提到某些触发词或关键词时,NPC才会生成实质性的、有价值的对话。

500

连自己内裤的颜色都不知道?

当然运用这项技术的游戏远不止这些,在实际体验中也能够明显地感受到这项技术中瑕疵的、机械化的一面。

即使是当今最强大的语言模型GPT-4,其本质更多的是一个统计学原理的概率模型,它的出发点并不是逻辑和语义。“奈何本人没文化,一句卧槽行天下。”在日常生活中,语言与行为活动密不可分,只言片语就能表达丰富的涵义。哲学家维特根斯坦的“语言游戏”就说明了这点,深究语言的本质只会走入死胡同,语言的使用比语法更重要,我们需要考虑实际的应用场景。

500

而到了算力有限,系统交互同样复杂的游戏中,目前的AI在游戏上还是有点捉襟见肘了,它们无法理解语言符号和非语言符号的关联。就目前来看,利用AI技术缩减游戏开发中的重复性工作和流程,游戏开发商投入更多成本和资源到游戏内容和体验本身的开发上,这可能是一条更加符合实际需求和发展趋势的道路。至于未来,我们不妨大胆展望,西部世界在有生之年或许能够实现。毕竟世界上第一架飞机只飞行了36.6米, 而短短六十年,人们就可以在云端俯瞰生灵,宣告头顶并没有什么上帝。

全部专栏