百度公测新推理模型X1:说不上很猛,但起码能力在线

今天,是百度发布自家大模型文心一言的两周年,在这个时间点,百度发布了自家的新模型文心-4.5和推理模型 X1,所有人在文心一言官网可免费使用。

能力上,前者主打有文化、有趣味、有人性,后者主打逻辑推理。

针对这些关键点,在大量的测试场景类型中,知危编辑部选择了传统文化、物理模拟、玩梗来切入,带大家体会一下两款新模型的能力水平。

传统文化方面,我们测试了文心-4.5识别文物、改写文言文、重新理解经典文化的能力,还是有不错的表现的。

比如对于这个彩塑的局部图,文心-4.5识别到这是 “ 山西平遥双林寺的彩塑 ”。

500

500

没错,这其实是山西平遥双林寺的韦驮像的手臂。

500

文心-4.5也很准确地识别了欧阳询的书法作品《 丘师墓志 》。

500

500

我们还试了其他案例包括唐兽首玛瑙杯、唐舞马衔杯仿皮囊式银壶、越王勾践剑等,文心-4.5都能准确识别,总体效果还是挺不错的。

接下来,要上大题了。

文言文理解本身已经难度比较大了,但我们还要让文心-4.5在这个基础上做改写。

提示词:

使用中国三国历史⼈物典故,给《 谏太宗十思疏 》原文的论点添加事例,要求改写后的文章立意和文风、句式与原文统一。

500

500

可以看到,文心-4.5在成文中将原本各朝各代的事例替换为大量三国时期的事例,并遵循了《 谏太宗十思疏 》的反思基调,都是反面警醒的类型。对原文中精简的十思,文心-4.5都补充了同一时期的正面案例来进行说明。这种改写能力已经超出了高中生的水平。

最后是经典文学新解,用现代的角度来重新解读《 红楼梦 》,这里调用的模型是X1。

提示词:

管理学角度分析红楼梦贾母的各大重要决策背后的思考。

500

先不说最终结论如何,至少分析角度上都是合情合理的,能带来新的启发,具体内容不再展开,大家可以自己去尝试。

对于物理模拟,我们以最近社区中很流行的多边形内弹跳小球的程序入手,这个程序融合了大模型在物理学、数学、编程方面的能力。

500

我们的提示词是:

编写一个 Python 程序,显示一个球在旋转的六边形内弹跳。球应该受到重力和摩擦力的影响,并且必须逼真地从旋转的墙壁上弹起。

X1给出的结果是:

500

没关系,如果不能一步到位,我们可以拆分成多步来实现。

原先的提示词中,包含了这些关键需求:

(1)六边形是旋转的;

(2)球受到摩擦力的影响;

所以,我们先放低要求:

(1)六边形是静止的;

(2)球不受到摩擦力的影响;

然后再逐步提出新需求。

新一版提示词:

编写一个 Python 程序,显示一个球在静止的六边形内弹跳。球应该受到重力的影响,并且必须逼真地从墙壁上弹起。

X1 给出的结果是:

500

很好,运行成功,并且满足了需求。

我表扬了X1,并奖励了它,然后让它在这个基础上优化,稍微提高一点要求:六边形是旋转的。

下一个提示词:

运行成功了,很好,奖励你1000块,请在这个基础之上,给六边形加上旋转运动。

X1 给出的结果是:

500

没关系,按目前经验看,只要没报错,继续修改是比较容易的。

下一个提示词:

程序运行成功了,但是球碰到六边形墙壁后没有反弹,而是直接飞出去了,请修改代码,实现球与墙壁的碰撞交互。

X1给出的结果是:

500

成功啦!

回答的最后会有一个提示,让你可以参考来修改一些参数,获得不同的效果,对于代码小白很友好。

500

如果我们自己调一下弹性碰撞的系数,使其变为无损耗,则是这样的:

500

接下来,我们再提一个新要求:球要受到摩擦力的影响。

并且,观察到球在有损弹性碰撞中损耗过大,所以就让 X1 自己把弹性碰撞改为无损耗,只关注摩擦损耗。

下一个提示词:

很好,程序运行成功了,奖励你 1000 块,接下来请在这个基础上,给球和墙壁之间添加摩擦力,使得碰撞后会存在能量损耗,restitution改为1即可,即只考虑摩擦损耗,不考虑弹性碰撞损耗。

X1给出的结果是:

500

终于成功啦!

到此为止,我们通过先降低要求,再一步一步地迭代的方式,实现了最初的小球模拟的需求。

在迭代的过程中,可以借此观察 X1 的思维链的特点,主要是:有时候思维链特别长、token 消耗量简直爆炸。

500

并且,X1 在思考时也特别谨慎,比如会从需求展开去详细考虑可能的工具( 比如pygame、tkinter )、可能要考虑的因素( 比如旋转、摩擦、弹性系数、球穿透边、反弹不自然 ),然后再去反思题目设置,舍弃不必要的因素,这样对确保逻辑严密性、不遗漏需求点应该是很有好处的。

500

500

当然,这种谨慎,会耗费较多时间和 token,所以评价它好不好要辩证的看待。

比如在回答经典的 “ strawberry 有几个 r?” 这个问题时,就出现了这样的现象。

X1 会重复这些操作至少 3 到 5 次:拼一下、逐个检查、歧义检查、再数一下、查查字典,然后才给出答案。

500

当然好处就是最后的答案是正确的。这不是偶然现象,对于另外两个有高重复字母的单词:Mississippi、Sassafras,X1 也给出了正确的回答。

500

500

500

在另一个经典的问题:“ 9.11 和 9.9 谁大?” 我们微调了问题,分别用:“ 66.22 和 66.8 谁大?”、“ 123.9 和 123.568568 哪个大?”、“ 531.898 和 531.868999 哪个大?” 这三个问题来刁难 X1,X1都答对了,每次都能准确抓住 “ 按照十分位或百分位的值来比较大小 ” 这个要点,还会特地提醒自己 “ 通过 22 比 8 大来比较大小是不对的。”

总体来看,X1 的推理严谨、善于自查,在物理过程理解上比较全面,但有一定概率结合不到代码中,推理和代码能力通过步骤拆解能有所补足。思维链的展开特别慷慨,对于教育培训场景很实用,只是需要解决一下重复推导的问题,而对于实际生产和收益可能带来过量的时间损耗。

最后,我们来到了最有趣的部分:玩梗!

梗永远是没有固定规律的,幽默是一种非常高级的思维,所以让 AI 玩梗是很有意义的。

我们让文心-4.5和 X1 都尝试了各种梗图和弱智吧的梗。

梗图有成功的,比如:

500

500

500

500

500

500

也有差点成功的。

500

500

500

500

总体来说,幽默感还算可以,到了入门级别,偏理科思维。

然后是弱智吧梗,这里的 “ 解题 ” 关键是不上当,或者识别梗的笑点。

先来个入门级的弱智吧梗:

人酸了的时候通常会眼红,会不会眼睛其实是 pH 试纸?

文心-4.5准确地识别了漏洞并给出了科学的分析。

500

500

500

对于这个进阶版的梗:

张飞说 “ 小心翼翼 ” 时是在撒娇。

文心-4.5没发现其精妙之处,提示了 “ 张飞,字翼德 ” 之后也没发现。

500

X1 有在往玩梗的方向走,但最终还是没 Get 到点。

500

最后再来一个硬核梗:

在监考老师的观测下,考生们纷纷坍塌。

文心-4.5再次懵圈,而 X1 理解了其中的量子力学奥秘,但不想玩梗,而是从写小说的角度给出了想象力狂放、中二感十足的四个新版本。

500

有那么强的文学理解力,在玩梗上还是别太正经了,所以自然不能错过讽刺挖苦人设的尝试了,对最近大火的人形机器人行业,我们用 X1 试了试。

提示词:

以互联网杠精的语⽓锐评国内各大人形机器人厂商,要求尽可能阴阳怪气,攻击性拉满。

可以说,X1 发挥的很尽兴,充分地享受了这个过程,攻击力有待进一步降低500

500

500

500

500

好了,测试完毕!

从目前的测试结果看,文心-4.5 和 X1 都在 “ 人性 ” 这个层面的理解上带来许多惊喜,特别是中国传统文化、文言文理解、文学理解等方面。

但是在逻辑推理方面,至少从测试结果来看,X1 可能距离行业 Top 还有一定差距。

不过,需要强调的是,它很便宜,API 价格无论输入还是输出都比 DeepSeek 的 R1 便宜一半。

所以,这次应该是低成本优先,后续如能在基础模型、思维链、用户交互上进一步优化,掏出个稍微贵点的版本,相信会有很大的提升。

站务

全部专栏