+1

收藏
1

评论
+1

点赞

分享

百度公测新推理模型X1：说不上很猛，但起码能力在线

知危
知危官方账号

03-16 21:16

今天，是百度发布自家大模型文心一言的两周年，在这个时间点，百度发布了自家的新模型文心-4.5和推理模型 X1，所有人在文心一言官网可免费使用。

能力上，前者主打有文化、有趣味、有人性，后者主打逻辑推理。

针对这些关键点，在大量的测试场景类型中，知危编辑部选择了传统文化、物理模拟、玩梗来切入，带大家体会一下两款新模型的能力水平。

传统文化方面，我们测试了文心-4.5识别文物、改写文言文、重新理解经典文化的能力，还是有不错的表现的。

比如对于这个彩塑的局部图，文心-4.5识别到这是 “ 山西平遥双林寺的彩塑 ”。

500

500

没错，这其实是山西平遥双林寺的韦驮像的手臂。

500

文心-4.5也很准确地识别了欧阳询的书法作品《丘师墓志》。

500

500

我们还试了其他案例包括唐兽首玛瑙杯、唐舞马衔杯仿皮囊式银壶、越王勾践剑等，文心-4.5都能准确识别，总体效果还是挺不错的。

接下来，要上大题了。

文言文理解本身已经难度比较大了，但我们还要让文心-4.5在这个基础上做改写。

提示词：

使用中国三国历史⼈物典故，给《谏太宗十思疏》原文的论点添加事例，要求改写后的文章立意和文风、句式与原文统一。

500

500

可以看到，文心-4.5在成文中将原本各朝各代的事例替换为大量三国时期的事例，并遵循了《谏太宗十思疏》的反思基调，都是反面警醒的类型。对原文中精简的十思，文心-4.5都补充了同一时期的正面案例来进行说明。这种改写能力已经超出了高中生的水平。

最后是经典文学新解，用现代的角度来重新解读《红楼梦》，这里调用的模型是X1。

提示词：

管理学角度分析红楼梦贾母的各大重要决策背后的思考。

500

先不说最终结论如何，至少分析角度上都是合情合理的，能带来新的启发，具体内容不再展开，大家可以自己去尝试。

对于物理模拟，我们以最近社区中很流行的多边形内弹跳小球的程序入手，这个程序融合了大模型在物理学、数学、编程方面的能力。

500

我们的提示词是：

编写一个 Python 程序，显示一个球在旋转的六边形内弹跳。球应该受到重力和摩擦力的影响，并且必须逼真地从旋转的墙壁上弹起。

X1给出的结果是：

500

没关系，如果不能一步到位，我们可以拆分成多步来实现。

原先的提示词中，包含了这些关键需求：

（1）六边形是旋转的；

（2）球受到摩擦力的影响；

所以，我们先放低要求：

（1）六边形是静止的；

（2）球不受到摩擦力的影响；

然后再逐步提出新需求。

新一版提示词：

编写一个 Python 程序，显示一个球在静止的六边形内弹跳。球应该受到重力的影响，并且必须逼真地从墙壁上弹起。

X1 给出的结果是：

500

很好，运行成功，并且满足了需求。

我表扬了X1，并奖励了它，然后让它在这个基础上优化，稍微提高一点要求：六边形是旋转的。

下一个提示词：

运行成功了，很好，奖励你1000块，请在这个基础之上，给六边形加上旋转运动。

X1 给出的结果是：

500

没关系，按目前经验看，只要没报错，继续修改是比较容易的。

下一个提示词：

程序运行成功了，但是球碰到六边形墙壁后没有反弹，而是直接飞出去了，请修改代码，实现球与墙壁的碰撞交互。

X1给出的结果是：

500

成功啦！

回答的最后会有一个提示，让你可以参考来修改一些参数，获得不同的效果，对于代码小白很友好。

500

如果我们自己调一下弹性碰撞的系数，使其变为无损耗，则是这样的：

500

接下来，我们再提一个新要求：球要受到摩擦力的影响。

并且，观察到球在有损弹性碰撞中损耗过大，所以就让 X1 自己把弹性碰撞改为无损耗，只关注摩擦损耗。

下一个提示词：

很好，程序运行成功了，奖励你 1000 块，接下来请在这个基础上，给球和墙壁之间添加摩擦力，使得碰撞后会存在能量损耗，restitution改为1即可，即只考虑摩擦损耗，不考虑弹性碰撞损耗。

X1给出的结果是：

500

终于成功啦！

到此为止，我们通过先降低要求，再一步一步地迭代的方式，实现了最初的小球模拟的需求。

在迭代的过程中，可以借此观察 X1 的思维链的特点，主要是：有时候思维链特别长、token 消耗量简直爆炸。

500

并且，X1 在思考时也特别谨慎，比如会从需求展开去详细考虑可能的工具（比如pygame、tkinter ）、可能要考虑的因素（比如旋转、摩擦、弹性系数、球穿透边、反弹不自然），然后再去反思题目设置，舍弃不必要的因素，这样对确保逻辑严密性、不遗漏需求点应该是很有好处的。

500

500

当然，这种谨慎，会耗费较多时间和 token，所以评价它好不好要辩证的看待。

比如在回答经典的 “ strawberry 有几个 r？” 这个问题时，就出现了这样的现象。

X1 会重复这些操作至少 3 到 5 次：拼一下、逐个检查、歧义检查、再数一下、查查字典，然后才给出答案。

500

当然好处就是最后的答案是正确的。这不是偶然现象，对于另外两个有高重复字母的单词：Mississippi、Sassafras，X1 也给出了正确的回答。

500

500

500

在另一个经典的问题：“ 9.11 和 9.9 谁大？” 我们微调了问题，分别用：“ 66.22 和 66.8 谁大？”、“ 123.9 和 123.568568 哪个大？”、“ 531.898 和 531.868999 哪个大？” 这三个问题来刁难 X1，X1都答对了，每次都能准确抓住 “ 按照十分位或百分位的值来比较大小 ” 这个要点，还会特地提醒自己 “ 通过 22 比 8 大来比较大小是不对的。”

总体来看，X1 的推理严谨、善于自查，在物理过程理解上比较全面，但有一定概率结合不到代码中，推理和代码能力通过步骤拆解能有所补足。思维链的展开特别慷慨，对于教育培训场景很实用，只是需要解决一下重复推导的问题，而对于实际生产和收益可能带来过量的时间损耗。

最后，我们来到了最有趣的部分：玩梗！

梗永远是没有固定规律的，幽默是一种非常高级的思维，所以让 AI 玩梗是很有意义的。

我们让文心-4.5和 X1 都尝试了各种梗图和弱智吧的梗。

梗图有成功的，比如：

500

500

500

500

500

500

也有差点成功的。

500

500

500

500

总体来说，幽默感还算可以，到了入门级别，偏理科思维。

然后是弱智吧梗，这里的 “ 解题 ” 关键是不上当，或者识别梗的笑点。

先来个入门级的弱智吧梗：

人酸了的时候通常会眼红，会不会眼睛其实是 pH 试纸？

文心-4.5准确地识别了漏洞并给出了科学的分析。

500

500

500

对于这个进阶版的梗：

张飞说 “ 小心翼翼 ” 时是在撒娇。

文心-4.5没发现其精妙之处，提示了 “ 张飞，字翼德 ” 之后也没发现。

500

X1 有在往玩梗的方向走，但最终还是没 Get 到点。

500

最后再来一个硬核梗：

在监考老师的观测下，考生们纷纷坍塌。

文心-4.5再次懵圈，而 X1 理解了其中的量子力学奥秘，但不想玩梗，而是从写小说的角度给出了想象力狂放、中二感十足的四个新版本。

500

有那么强的文学理解力，在玩梗上还是别太正经了，所以自然不能错过讽刺挖苦人设的尝试了，对最近大火的人形机器人行业，我们用 X1 试了试。

提示词：

以互联网杠精的语⽓锐评国内各大人形机器人厂商，要求尽可能阴阳怪气，攻击性拉满。

可以说，X1 发挥的很尽兴，充分地享受了这个过程，攻击力有待进一步降低 500

500

500

500

500

好了，测试完毕！

从目前的测试结果看，文心-4.5 和 X1 都在 “ 人性 ” 这个层面的理解上带来许多惊喜，特别是中国传统文化、文言文理解、文学理解等方面。

但是在逻辑推理方面，至少从测试结果来看，X1 可能距离行业 Top 还有一定差距。

不过，需要强调的是，它很便宜，API 价格无论输入还是输出都比 DeepSeek 的 R1 便宜一半。

所以，这次应该是低成本优先，后续如能在基础模型、思维链、用户交互上进一步优化，掏出个稍微贵点的版本，相信会有很大的提升。

科技举报

知危

522篇文章 | 244人关注

+关注

观察者网用户社区

作者文章查看全部>>

胖东来辟谣千万月饼包装设计费，称只花费414万元，你怎么看？

最新提问

等13人已参与问答

校园爱情和社会爱情有区别吗？

最新提问

等6人已参与问答

小米的屏幕清洁布一块要24.9元，苹果一块抛光布要145元，为什么这么贵？

最新提问

等6人已参与问答

热点

站务

观察者网评论

请你来预测，2025年这些期待是否会发生？

岁月匆匆，又是一年。这一年，我们看到过巴以战场上无家可归的孩子，见证过巴黎奥运会赛场上的拼搏，也迎来了新中国的第75个生日……这一年，我们讨论经济、讨论房价股市，在现实的磨......
- 评论 76
- 赞 15
风闻社区小助手_小风

风闻“投资者保护”：守护你的财富，共筑理性投资路

在投资的浪潮中，每一次波动都暗藏机遇与挑战。你是否曾因信息不对称而迷茫？是否遭遇过投资陷阱，让辛苦积攒的财富受损？又或者有过慧眼识珠、收获满满回报的成功经历？无论你的经历如......
- 评论 74
- 赞 11

最近更新的专栏

酷玩实验室
- 福建舰电弹突破：我海军走向“深蓝”
张佳玮
- 30天30队·黄蜂：三球浪舞、米勒冷射，还是？
上海全知道

自媒体人脊梁in上海
- “7岁男孩吃不到西贝跟母亲哭闹” ？西贝删除温情公关文！网友：文案贾总自己写的吧
大伊万频道
- 福建舰最新进度！中国3航母战力或超越2艘美国尼米兹，下一艘就造核动力？
医学界

为你提供可靠、有价值的内容是我们的存在方式。
- 世界首次！中国医生体内CAR-T成功治疗狼疮
知危
- 苹果之前不敢回答的问题，这次总裁来B站全给说了
军武次位面

专注于高品质的趣味军事科普，打造男人最爱看的频道
- 离谱！网友“质疑”福建舰电磁弹射：万一是飞机自己飞起来的呢？
量子位
- 中国团队重新定义“星际之门”！全球首个太空计算星座已实现常态化商用
文化纵横
- 独家 | 某些人用“内卷”否定中国，却解释不了比亚迪的成功
地球知识局

人文+地理+设计=全球视野新三观
- 加沙毁灭计划，以色列留地不留人

风闻最热

全部专栏