谁来定义AI“懂物理”？| 科到了

中科院物理所
中科院物理所官方账号

03-12 16:59

作者：王嘉翌博士研究生 | 中国科学院大学
培养单位：中国科学院物理研究所
审核：杨海涛研究员 | 中国科学院物理研究所

AI懂物理吗？

让我们设想这个场景：小孩搭积木，塔刚晃一下，他急着伸手去扶：“太高了，站不稳！”这一瞬间的动作，是刻在人类基因里的“物理直觉”——无需列方程、做计算，这是我们从小摔玩具、打翻杯子、被门夹手“交学费”换来的本能。

反观AI：它能以每秒百万次的速度算出每块积木的重心、摩擦力和力矩，却在看到一段“积木凭空悬浮”的视频时，认真点头：“这很合理。”

这正是问题的关键：会算，不等于懂。

最近，AI在各类奥赛中屡创佳绩，甚至展现出超越人类顶尖选手的解题统治力。但我们不禁要问：它是真的理解了真实物理世界，还是只是背下了海量题库，练就了一身“应试功夫”？

要回答这个问题，科学家们为AI设计了一种新型考试——benchmark（基准测试）。说白了，这是给AI设计的题库，专门检验它是不是真有“物理直觉”。这些测试五花八门：有的让它玩弹球游戏，有的看动画挑错，有的直接扔进虚拟厨房动手炒菜。

为了系统评估AI的“物理直觉”到底强在哪、弱在哪，科学家们通常从两个关键维度来组织这些 benchmark：

一是 任务类型——AI是在预测、控制，还是在做因果推理？

二是 输入模态——AI是靠读文字、看图像，还是得亲手“摸”世界？

接下来，我们就从这两个角度，看看科学家如何给AI的“物理直觉”打分。

一、按任务类型划分：AI是在“算”，还是在“理解”？

500

DeepPHY [3]： AI也会玩游戏，愤怒的小鸟、切绳子、打台球……

最经典的一类任务是前向问题。这类任务要求模型根据已知的物理规律、初始条件和边界条件，预测系统未来的状态。比如，给定t时刻水流的速度和压力，令AI判断水流在t+1时刻是会拐弯、起涡，还是撞水槽反弹？ PDEBench [1]就专注于测评这类问题，考察AI能不能用数学方法，逼近真实世界的演化过程，本质上更接近“AI会不会计算”。

500

PAI-Bench [8]：AI根据输入文本生成爆炸发光视频

更高阶的任务，叫控制或设计问题。它不只是要求模型预测结果，而且要求它反过来寻找一个最优输入或控制策略，使系统达到预期目标。即让AI想：“我该怎么做，才能让系统变成我想要的样子？”。

比如：怎么控制机械臂，在不碰倒杯子的情况下抓起一个鸡蛋？

或者：如何设计一种材料结构，让它又轻又能扛住冲击？

这就是“控制与设计类问题”。代表选手是 RoboBPP [2]，它模拟的是真实机器人面临的挑战：在线装箱、动态抓取、避开障碍……每一步都要考虑重力、摩擦、碰撞。

这就逼着AI从“解题思维”转向“工程思维”——不仅要懂规律，还得会规划、能权衡、敢调整，考验模型在复杂物理系统中的决策能力和规划能力。

500

PlasticineLab [9]：AI按照要求捏料橡皮泥柔性材料

500

ThreeDWorld Transport Challenge [10]：AI于三维世界完成搬东西操作

最高阶的考场，直指人类最引以为傲的能力：因果推理。它要求AI不只算出结果，更要理解“为什么”：现象背后是什么机制？改变一个条件会引发什么连锁反应？

举个例子：让它生成一段“金属钠扔进水里”的视频——不是随便放个烟花特效，而是准确呈现剧烈反应、氢气释放、甚至可能的爆炸发光。这需要它真正明白“钠+水→放热→产气→点燃”这一连串因果链。

一个有趣的benchmark—— DeepPHY [3]，它把AI丢进一个充满物理规则的虚拟游戏厅：弹球轨道、台球桌、“愤怒的小鸟”、切绳子……让它边玩边试错。

考的是什么？

多步推理、空间判断、时序规划，还有最关键的一点——从失败中修正策略：“刚才那样不行，得换种方式。”

这类评测显然和我们印象中“AI做题家”截然不同，而是令AI在和物理世界对话。

二、按模态划分：AI是通过什么“看见”物理的？

500

PhysBench [11]：AI视觉理解真实物理世界，哪个球弹得更高？车会先撞到哪个方块？

如果说“任务类型”是考AI“会干什么”，那“模态”就是看它“怎么感知这个世界”。就像人类靠眼睛看、耳朵听、手去摸来认识物理世界，AI也需要通过不同的“感官”输入来学习规律。

最基础的是纯文本benchmark。这类任务主要围绕文字、公式、符号和逻辑推导展开，重点考察模型的数学推演和抽象推理能力，比如SuperGPQA [4]。

接下来，AI 被要求“睁眼看世界”，视觉benchmark应运而生。这类任务以图像或视频作为输入，要求模型理解其中的物理动态。例如， IntPhys [5]的灵感来自婴儿直觉物理研究：连八个月大的孩子都知道——物体不会凭空消失，也不会穿过墙壁。在这个benchmark中，科学家给AI看一系列由引擎生成的视频，有些是物理上可能发生的事件，比如球从斜坡滚下，自然落地；有些则不可能，比如球飞到半空突然悬停，或者穿墙而过。AI模型需要判断哪些现象“在物理上说得通”，考的是AI的“物理常识感”。

目前最火热的方向，是多模态benchmark。在真实物理研究中，问题不可能只来来自文字图表，而是实验操作、仪器读数、乃至噪音的集成体。PhysUniBench [6] 就还原了这种场景：每个问题都配有一张复杂的物理图表。AI 必须能“看懂”坐标系，识别出波的干涉条纹，或是追踪粒子的运动轨迹，才能解出题。 SeePhys [7]则直接设计了"视觉必需型"难题：比如问：“这个波形对应哪种振动模式？” 没图？AI根本无从下手。这意味着，AI 不能再靠“背题库”蒙混过关，它必须真正具备解读科学图像的能力，像个真正的研究员一样工作。

最高阶的感知方式，是亲身参与。近年来兴起一类具身/交互式 benchmark，它干脆把AI放进一个虚拟物理世界里，让AI通过自主探索和交互来完成任务。比如 PAI-Bench [8]，就设置了各种“生活挑战”：在厨房里做菜，控制火候、翻炒食材；模拟水滴落入湖中，生成涟漪扩散的全过程；生成鞭炮在厂房外爆炸和发光的视频。

此时，模型所需要的就不只是预测能力，更包括行动能力和决策能力，从“会做题”走向“会做事”。

500

PAIBench [8]：具身AI厨房做饭视频

从枯燥的文本题海，到能看、能听、能动手的多模态交互——物理 Benchmark 的进化史，其实就是 AI 努力长出“五官”和“双手”的过程。这过程的价值远超分数本身：它们是一面镜子，映照出 AI 的短板，也折射出人类的独特。

参考文献：

[1] M. Takamoto, T. Praditia, R. Leiteritz, D. MacKinlay, F. Alesiani, D. Pflueger, and M. Niepert, PDEBENCH: An extensive benchmark for scientific machine learning, arXiv:2210.07182 (2022).

[2] Z. Wang, H. Zhao, J. Xu, S. Zhang, Z. Xiong, R. Hu, C. Zhu, Z. Zeng, and K. Xu, RoboBPP: Benchmarking robotic online bin packing with physics-based simulation, arXiv:2512.04415 (2025).

[3] X. Xu, P. Bu, Y. Wang, B. F. Karlsson, Z. Wang, T. Song, Q. Zhu, J. Song, Z. Ding, and B. Zheng, DeepPHY: Benchmarking agentic VLMs on physical reasoning, arXiv:2508.05405 (2025).

[4] X. Du, Y. Yao, K. Ma, B. Wang, T. Zheng, K. Zhu, M. Liu, Y. Liang, X. Jin, Z. Wei, et al., SuperGPQA: Scaling LLM evaluation across 285 graduate disciplines, arXiv:2502.14739 (2025).

[5] R. Riochet, M. Y. Castro, M. Bernard, A. Lerer, R. Fergus, V. Izard, and E. Dupoux, IntPhys 2019: A benchmark for visual intuitive physics understanding, IEEE Trans. Pattern Anal. Mach. Intell. 44, 5016 (2022).

[6] L. Wang, E. Su, J. Liu, P. Li, P. Xia, J. Xiao, W. Zhang, X. Dai, X. Chen, Y. Meng, M. Ding, L. Bai, W. Ouyang, S. Tang, A. Wang, and X. Ma, PhysUniBench: A multi-modal physics reasoning benchmark at undergraduate level, arXiv:2506.17667 (2025).

[7] H. Shen, T. Wu, Q. Han, Y. Hsieh, J. Wang, Y. Zhang, Y. Cheng, Z. Hao, Y. Ni, X. Wang, et al., SeePhys: Does seeing help thinking? Benchmarking vision-based physics reasoning, arXiv:2505.19099 (2025).

[8] F. Zhou, J. Huang, J. Li, D. Ramanan, and H. Shi, PAI-Bench: A comprehensive benchmark for physical AI, arXiv:2512.01989 (2025).

[9] Z. Huang, Y. Hu, T. Du, S. Zhou, H. Su, J. B. Tenenbaum, and C. Gan, PlasticineLab: A soft-body manipulation benchmark with differentiable physics, in Proc. Int. Conf. Learn. Represent, arXiv:2104.03311 (2021).

[10] C. Gan, S. Zhou, J. Schwartz, S. Alter, A. Bhandwaldar, D. Gutfreund, D. L. K. Yamins, J. J. DiCarlo, J. McDermott, A. Torralba, and J. B. Tenenbaum, The ThreeDWorld Transport Challenge: A visually guided task-and-motion planning benchmark for physically realistic embodied AI, in Proc. Conf. Neural Inf. Process. Syst., Paper No. 1678 (2021).

[11] W. Chow, J. Mao, B. Li, D. Seita, V. Guizilini, and Y. Wang, PhysBench: Benchmarking and enhancing vision-language models for physical world understanding, in Proc. Int. Conf. Learn. Represent. (2025).

科技举报

中科院物理所

872篇文章 | 62351人关注

+关注

观察者网用户社区

作者文章查看全部>>

热门搜索

搜索历史

谁来定义AI“懂物理”？| 科到了

中科院物理所
中科院物理所官方账号

中科院物理所

热点

站务

观察者网评论

2026年十大预测，这些期待是否会发生？

风闻社区小助手_小风

全场景数码消费指南：风闻「数码情报局」邀你当消费裁判！

最近更新的专栏

风闻最热

全部专栏

热门搜索

搜索历史

谁来定义AI“懂物理”？| 科到了

中科院物理所 中科院物理所官方账号

热点

站务

最近更新的专栏

风闻最热

全部专栏

中科院物理所
中科院物理所官方账号