汽车上的《Her》:模型竟然想做个人了,让灵魂有趣,来自吉利的全新尝试
允中 发自 凹非寺
量子位 | 公众号 QbitAI
今天,如果你身边有这样一个对话大模型,它就像你身边的一个朋友,快言快语,风趣幽默,既会比喻,又会自嘲,偶尔跟你唱反调,你跟它的聊天欲望会不会更强一些呢?
直接来看看实际表现:
类似的设计灵感来源于电影《Her》里面的 Samantha——作为关于AI的电影,它为我们构建了一个完美的AI智能体,能够帮主人公解决日常问题的能力,同时它又有个性、有感情、有意识;它不像一个机器,而是像一个人。而在大模型生态爆炸式发展的今天,基于当前的自然语言大模型(LLM)的能力,使得建构类似的高度拟人化智能体已经成为可能。
作为汽车行业的领军者,吉利不仅在汽车领域持续创新,还将目标瞄准在了这一切入点——将自家的星睿AI大模型在“拟人化”对话和情感陪伴场景进行了落地,主打真实对话,营造座舱“氛围感”。
让每一次对话,皆为跨越科技与生活边界的美妙邂逅;每一次出行,俱是与智能科技深度交融的奇妙之旅。
星睿AI大模型能否真正提供逼真的社交体验?直接上手体验一把。
座舱大模型实测我怀疑TA半夜偷偷背梗!
完全不按套路出牌,神金,害我笑了一下。
脱发这种成长的烦恼,本以为会引发共鸣,却被机智地引导到了‘少即是多’的哲学思考上。
工作完成了吗:啰嗦
新晋打工人嘴替,上过班的的人都说好。“犇骉”精神状态被TA拿捏的死死的,“班味”这东西一旦染上。就再也去不掉了。
可以说打工人狠狠被触动了,班味是“冰美式的苦味”、“领导画的饼味”、“同事甩的锅味“。
ta竟然还会“阴阳”?
好喜欢甲方这种琢磨不透的感觉,简直是白日梦想家啊。要不是TA是个AI,我都怀疑TA天天跟甲方对接,阴阳起来简直毫不费力,脑洞比宇宙黑洞还要深邃,简直佩服的五体投地。
拒绝端水话术
当前主流大模型(如GPT-4*、Llama等)默认遵循人类(human)与机器助手(assistant)的对话范式,作为严谨冷静的助手,模板化、公式化是它的标签,面对生活化的聊天场景,就显得“缺少温度”、“没有灵魂”。
而对于星睿AI大模型,有趣只是它的一部分,不止于聊天,全方位兼顾,才是根本。从换位思考再到感同身受,先沟通情绪再解决问题,把每一句漫不经心的提及都放在心上,让每一个用户获得真实的情感陪伴,让每一个回答都充满深层次的情绪支持。
对于相同问题的模型回答 ,星睿AI大模型有一定的共情能力,具备更强的交互性,不会只是简单的回答用户的问题,而是给予人足够的宽慰和关心,给出一些恰当的建议。
创意玩法——再幽默“亿”点点
传统大模型一般会保持一个统一风格,虽然可以通过提示词来提供不同的风格建议,但这种风格切换的效果会有瓶颈;如果针对不同风格的需求分别进行模型定制化训练,相关的成本又比较大。
那么有没有一种大模型可以提供风格的操控开关,允许用户实时控制大模型的回答风格呢?通过向用户开放一些风格切换的“咒语”,吉利AI实验室也做出了相应尝试:
控制幽默度
控制情感强度
当然,理想的AI产品应该是根据用户的喜好定制,每一个用户的TA都应该不尽相同。
不得不说,这考虑的确实太全面了,从‘感到冒犯’到‘深刻共鸣’,一键切换,星睿AI大模型打造了一款真正贴心的AI助手。
TA们是怎么做到的?
吉利AI实验室综合了当前大模型与角色扮演、记忆系统、策略决策、情感增强和交互式学习等场景结合的研究思路,模仿人类与人类、人类与环境之间的交互学习过程,构建一个有聊天技巧和情感互动的对话智能体。其中部分核心模块包括:
用户状态识别:每次交互中,星睿AI大模型会首先识别用户的当前意图和情绪,作为后续决策的隐变量状态。
人类策略:与单纯积累大规模数据然后进行模仿学习的传统训练方式不同,星睿AI大模型首先将人类的领域知识抽象成不同的策略库、技巧库,然后在交互过程中让智能体先决定要使用的策略或技巧,再生成具体的回复内容。通过这种将问题分层、切割的方式,实现了复杂决策问题简单化,也符合当前流行的快(System 1)—慢(System 2)思考范式。
记忆模块:星睿AI大模型将历史对话数据构建为结构化的记忆数据库,并分为两类:与当前用户相关的专属记忆,和与整个环境交互得到的群体记忆;最终通过对群体记忆学习人类经验的共性,而针对单体记忆来实现对用户个性喜好的进一步对齐。
情感增强:基于用户情绪和自身性格设定,来决定智能体自身情感变化,最终对表达内容进行修正。与常见的基于共情策略建构的情感对话系统不同,星睿AI大模型考虑了自身性格对情感表现的影响,例如用户在表达悲伤的话题时,“冷漠叛逆”的智能体不是直接共情,而是会表现出幸灾乐祸的情感,更符合性格设定。
模型评测——想知道TA有多想“做个人”?
光看案例容易一叶障目,吉利AI实验室还进行了不同角度的评测,以便更科学的表征模型的拟人化表现。
在对话效果层面打擂台
若想客观评价对话效果,最直接的做法就是让自家的星睿AI大模型与其他产品进行聊天PK,再进行人工盲测。这里吉利AI实验室也借鉴了emohaa的评测方法,不仅对比了业界标杆级产品GPT-4,也对比了GPT-4加自家拟人化prompt(GPT-4+prompt),也即“高仿版星睿AI大模型”的效果,从而更科学的表征核心方案本身带来的效果提升。与传统注重通用任务能力的评测思路不同,这里主要列举了自然度、聊天技巧、对话质量等与聊天体感相关的维度。下图是星睿AI大模型与GPT-4、高仿版星睿AI大模型的胜率结果,星睿AI大模型优势明显。
情商与个性也可以量化
吉利AI实验室也参考了国内外一些著名的评测方案,比如著名的图灵测试(是否可以让聊天伙伴能够在未知情况下无法区分对方是真人还是AI),以及能够评价模型情商(EI)和情感强度(Sentiment Intensity)的SECEU测试。SECEU以500多名人类数据作为基准,并覆盖40多个情感场景,能够衡量模型情感强度与人类的相似度(越低越好),以及计算模型的情商得分(越高越好)。
通过上图的测试结果,可以看到星睿AI大模型在图灵测试(Turing Test)中明显强于Baichuan2、Qwen2、GPT4和GPT-4+prompt,并已接近于人类水平。
而在SECEU测试中,星睿AI大模型也同时在中文(cn)和英文(en)场景中取得了几个模型里最好的成绩。
对比三个模型在心理学领域其他一些测试,比如大五人格、珀斯共情、情绪自控等量表的测试结果,也可以发现星睿AI大模型相比于GPT4+prompt,更外向和开放,且对情感的控制能力上有了明显提升。
用语言学来看模型回答
吉利AI实验室还考虑了更加本土化的评测方案:由真人自然交谈得到的文本,背后隐藏着语言学特征的分布规律,而特征分布频率更接近于人类样本分布的模型也自然更符合人类用语习惯。通过参考不同的语言学研究文献,这些语言学特征包括音节(单音节VS双音节)、词汇等级(甲、乙、丙、丁)、标点、儿化词、实词与虚词等。
结果也显示,星睿AI大模型在绝大多数指标的统计学分布与人类样本更为接近,因此提供了更贴近口语化的表达、更自然的对话方式。
原来模型竟然是“宝剑哥”
最后,吉利AI实验室还为自家模型做了流行的MBTI人格化测试。相较于GPT-4的INTJ,星睿AI大模型则是又被称为“主人公人格”的ENFJ。从i人的”话太多不是我风格“,到e人的“我想跟你多唠唠”;从冷静分析到注重感受与共情,更强的J人属性,相同的思考方式,这才是想要的主人公。
ENFJ人格展现出卓越的领导力、敏锐的直觉,以及强烈的同理心与独特魅力,既自信从容,又温暖健谈。像小太阳一样照亮他人,ENFJ的爱都藏在细节里。热情坦诚,灌输信念,更加富有人格魅力才是真的星睿AI大模型。
不仅仅只是“聊天”
在科技的浪潮中,星睿AI大模型不仅是一款产品的诞生,更是一次思维与实践的革新之旅。将AI的应用场景从任务执行拓展到情感互动中,帮助用户在驾驶中找到更多的陪伴感和满足感,实现更高智能的人车交互。
星睿AI大模型即将搭载某新能源车型,届时也可以在车主APP中直接体验,相关论文也将在近期发布。
当然,通往超级人工智能的道路仍然漫长。首先,研究者们仍然需要进一步挖掘和塑造模型的内在人格,避免上述的案例表现不是简单的模仿和记忆,而是是根植于内心思考的结果;其次,构建一个拟人化性格、甚至有嘲讽和叛逆表现的人工智能体,某种意义上与AI的安全价值观对齐工作存在冲突,如何让AI像人类一样充满个性和趣味,又避免它们对人类产生威胁,是一个艰深而持续的课题。
在科技与梦想交织的前沿阵地,吉利始终以创新为驱动,致力于探索智能出行的新纪元,为吉利汽车的科技进步提供可持续助力。
参考链接:
[1] https://thecinemaholic.com/her-ending-explained/
[2] https://www.tsinghua.edu.cn/en/info/1418/11900.htm
[3] https://www.16personalities.com/personality-types/
[4] https://bigfive-test.com/
[5] https://psychology-tools.com/test/empathy-quotient