谁来定义AI“懂物理”?| 科到了

作者:王嘉翌 博士研究生 | 中国科学院大学

培养单位:中国科学院物理研究所

审核:杨海涛 研究员 | 中国科学院物理研究所

AI懂物理吗?

让我们设想这个场景:小孩搭积木,塔刚晃一下,他急着伸手去扶:“太高了,站不稳!”这一瞬间的动作,是刻在人类基因里的“物理直觉”——无需列方程、做计算,这是我们从小摔玩具、打翻杯子、被门夹手“交学费”换来的本能。

反观AI:它能以每秒百万次的速度算出每块积木的重心、摩擦力和力矩,却在看到一段“积木凭空悬浮”的视频时,认真点头:“这很合理。”

这正是问题的关键:会算,不等于懂。

最近,AI在各类奥赛中屡创佳绩,甚至展现出超越人类顶尖选手的解题统治力。但我们不禁要问:它是真的理解了真实物理世界,还是只是背下了海量题库,练就了一身“应试功夫”?

要回答这个问题,科学家们为AI设计了一种新型考试——benchmark(基准测试)。说白了,这是给AI设计的题库,专门检验它是不是真有“物理直觉”。这些测试五花八门:有的让它玩弹球游戏,有的看动画挑错,有的直接扔进虚拟厨房动手炒菜。

为了系统评估AI的“物理直觉”到底强在哪、弱在哪,科学家们通常从两个关键维度来组织这些 benchmark:

一是 任务类型——AI是在预测、控制,还是在做因果推理?

二是 输入模态——AI是靠读文字、看图像,还是得亲手“摸”世界?

接下来,我们就从这两个角度,看看科学家如何给AI的“物理直觉”打分。

一、按任务类型划分:AI是在“算”,还是在“理解”?

500

DeepPHY [3]: AI也会玩游戏,愤怒的小鸟、切绳子、打台球……

最经典的一类任务是前向问题。这类任务要求模型根据已知的物理规律、初始条件和边界条件,预测系统未来的状态。比如,给定t时刻水流的速度和压力,令AI判断水流在t+1时刻是会拐弯、起涡,还是撞水槽反弹? PDEBench [1]就专注于测评这类问题,考察AI能不能用数学方法,逼近真实世界的演化过程,本质上更接近“AI会不会计算”。

500

PAI-Bench [8]:AI根据输入文本生成爆炸发光视频

更高阶的任务,叫控制或设计问题。它不只是要求模型预测结果,而且要求它反过来寻找一个最优输入或控制策略,使系统达到预期目标。即让AI想:“我该怎么做,才能让系统变成我想要的样子?”。

比如:怎么控制机械臂,在不碰倒杯子的情况下抓起一个鸡蛋?

或者:如何设计一种材料结构,让它又轻又能扛住冲击?

这就是“控制与设计类问题”。代表选手是 RoboBPP [2],它模拟的是真实机器人面临的挑战:在线装箱、动态抓取、避开障碍……每一步都要考虑重力、摩擦、碰撞。

这就逼着AI从“解题思维”转向“工程思维”——不仅要懂规律,还得会规划、能权衡、敢调整,考验模型在复杂物理系统中的决策能力和规划能力。

500

PlasticineLab [9]:AI按照要求捏料橡皮泥柔性材料

500

ThreeDWorld Transport Challenge [10]:AI于三维世界完成搬东西操作

最高阶的考场,直指人类最引以为傲的能力:因果推理。它要求AI不只算出结果,更要理解“为什么”:现象背后是什么机制?改变一个条件会引发什么连锁反应?

举个例子:让它生成一段“金属钠扔进水里”的视频——不是随便放个烟花特效,而是准确呈现剧烈反应、氢气释放、甚至可能的爆炸发光。这需要它真正明白“钠+水→放热→产气→点燃”这一连串因果链。

一个有趣的benchmark—— DeepPHY [3],它把AI丢进一个充满物理规则的虚拟游戏厅:弹球轨道、台球桌、“愤怒的小鸟”、切绳子……让它边玩边试错。

考的是什么?

多步推理、空间判断、时序规划,还有最关键的一点——从失败中修正策略:“刚才那样不行,得换种方式。”

这类评测显然和我们印象中“AI做题家”截然不同,而是令AI在和物理世界对话。

二、按模态划分:AI是通过什么“看见”物理的?

500

PhysBench [11]:AI视觉理解真实物理世界,哪个球弹得更高?车会先撞到哪个方块?

如果说“任务类型”是考AI“会干什么”,那“模态”就是看它“怎么感知这个世界”。就像人类靠眼睛看、耳朵听、手去摸来认识物理世界,AI也需要通过不同的“感官”输入来学习规律。

最基础的是纯文本benchmark。这类任务主要围绕文字、公式、符号和逻辑推导展开,重点考察模型的数学推演和抽象推理能力,比如SuperGPQA [4]。

接下来,AI 被要求“睁眼看世界”,视觉benchmark应运而生。这类任务以图像或视频作为输入,要求模型理解其中的物理动态。例如, IntPhys [5]的灵感来自婴儿直觉物理研究:连八个月大的孩子都知道——物体不会凭空消失,也不会穿过墙壁。在这个benchmark中,科学家给AI看一系列由引擎生成的视频,有些是物理上可能发生的事件,比如球从斜坡滚下,自然落地;有些则不可能,比如球飞到半空突然悬停,或者穿墙而过。AI模型需要判断哪些现象“在物理上说得通”,考的是AI的“物理常识感”。

目前最火热的方向,是多模态benchmark。在真实物理研究中,问题不可能只来来自文字图表,而是实验操作、仪器读数、乃至噪音的集成体。PhysUniBench [6] 就还原了这种场景:每个问题都配有一张复杂的物理图表。AI 必须能“看懂”坐标系,识别出波的干涉条纹,或是追踪粒子的运动轨迹,才能解出题。 SeePhys [7]则直接设计了"视觉必需型"难题:比如问:“这个波形对应哪种振动模式?” 没图?AI根本无从下手。这意味着,AI 不能再靠“背题库”蒙混过关,它必须真正具备解读科学图像的能力,像个真正的研究员一样工作。

最高阶的感知方式,是亲身参与。近年来兴起一类具身/交互式 benchmark,它干脆把AI放进一个虚拟物理世界里,让AI通过自主探索和交互来完成任务。比如 PAI-Bench [8],就设置了各种“生活挑战”:在厨房里做菜,控制火候、翻炒食材;模拟水滴落入湖中,生成涟漪扩散的全过程;生成鞭炮在厂房外爆炸和发光的视频。

此时,模型所需要的就不只是预测能力,更包括行动能力和决策能力,从“会做题”走向“会做事”。

500

PAIBench [8]:具身AI厨房做饭视频

从枯燥的文本题海,到能看、能听、能动手的多模态交互——物理 Benchmark 的进化史,其实就是 AI 努力长出“五官”和“双手”的过程。这过程的价值远超分数本身:它们是一面镜子,映照出 AI 的短板,也折射出人类的独特。

参考文献:

[1] M. Takamoto, T. Praditia, R. Leiteritz, D. MacKinlay, F. Alesiani, D. Pflueger, and M. Niepert, PDEBENCH: An extensive benchmark for scientific machine learning, arXiv:2210.07182 (2022).

[2] Z. Wang, H. Zhao, J. Xu, S. Zhang, Z. Xiong, R. Hu, C. Zhu, Z. Zeng, and K. Xu, RoboBPP: Benchmarking robotic online bin packing with physics-based simulation, arXiv:2512.04415 (2025).

[3] X. Xu, P. Bu, Y. Wang, B. F. Karlsson, Z. Wang, T. Song, Q. Zhu, J. Song, Z. Ding, and B. Zheng, DeepPHY: Benchmarking agentic VLMs on physical reasoning, arXiv:2508.05405 (2025).

[4] X. Du, Y. Yao, K. Ma, B. Wang, T. Zheng, K. Zhu, M. Liu, Y. Liang, X. Jin, Z. Wei, et al., SuperGPQA: Scaling LLM evaluation across 285 graduate disciplines, arXiv:2502.14739 (2025).

[5] R. Riochet, M. Y. Castro, M. Bernard, A. Lerer, R. Fergus, V. Izard, and E. Dupoux, IntPhys 2019: A benchmark for visual intuitive physics understanding, IEEE Trans. Pattern Anal. Mach. Intell. 44, 5016 (2022).

[6] L. Wang, E. Su, J. Liu, P. Li, P. Xia, J. Xiao, W. Zhang, X. Dai, X. Chen, Y. Meng, M. Ding, L. Bai, W. Ouyang, S. Tang, A. Wang, and X. Ma, PhysUniBench: A multi-modal physics reasoning benchmark at undergraduate level, arXiv:2506.17667 (2025).

[7] H. Shen, T. Wu, Q. Han, Y. Hsieh, J. Wang, Y. Zhang, Y. Cheng, Z. Hao, Y. Ni, X. Wang, et al., SeePhys: Does seeing help thinking? Benchmarking vision-based physics reasoning, arXiv:2505.19099 (2025).

[8] F. Zhou, J. Huang, J. Li, D. Ramanan, and H. Shi, PAI-Bench: A comprehensive benchmark for physical AI, arXiv:2512.01989 (2025).

[9] Z. Huang, Y. Hu, T. Du, S. Zhou, H. Su, J. B. Tenenbaum, and C. Gan, PlasticineLab: A soft-body manipulation benchmark with differentiable physics, in Proc. Int. Conf. Learn. Represent, arXiv:2104.03311 (2021).

[10] C. Gan, S. Zhou, J. Schwartz, S. Alter, A. Bhandwaldar, D. Gutfreund, D. L. K. Yamins, J. J. DiCarlo, J. McDermott, A. Torralba, and J. B. Tenenbaum, The ThreeDWorld Transport Challenge: A visually guided task-and-motion planning benchmark for physically realistic embodied AI, in Proc. Conf. Neural Inf. Process. Syst., Paper No. 1678 (2021).

[11] W. Chow, J. Mao, B. Li, D. Seita, V. Guizilini, and Y. Wang, PhysBench: Benchmarking and enhancing vision-language models for physical world understanding, in Proc. Int. Conf. Learn. Represent. (2025).

站务

最近更新的专栏

全部专栏