万米地下打响“计算战”,HPC与大模型解放石油人的“铁脚板”

许多人在讨论“养虾”时,在荒凉的戈壁滩上,一场关乎能源命脉的技术革命正在悄然发生。
当地表浅层“容易获取”的油气资源被消耗殆尽,用脚步丈量大地的“找油人”,将目光瞄向了上万米的地底深处,要在上千米的地层中找到仅有几米适合开采的油层。传统靠经验“开盲盒”式的勘探手段已经失效,取而代之的是看不见硝烟的“计算战”。
为了拨开硬核技术的面纱,我们与中国石油勘探开发研究院原首席专家龚仁彬进行了一场对话,透过有着40年经验的“石油IT老将”的视角,理解计算怎么重塑人类寻找“黑金”的方式。
01 数据量指数级增长的计算“压力”
1986年大学毕业后,龚仁彬就投身于石油IT系统的建设,亲历了中国油气行业从信息化到数字化再到智能化的跨越。
“老一代石油人找油,靠的是一双铁脚板和长期积累的经验。”龚仁彬在对话中向我们描绘了传统石油勘探的画面,地质学家们跋山涉水,通过有限的地表采样和肉眼观察,再结合毕生积累的知识与经验,在大脑中构建出地下可能存在的油气构造。

高度依赖人类大脑和体力的模式,已经逼近认知的极限,横亘在现代勘探面前,是两个跳不过的现实挑战。
第一个挑战是数据量的指数级甚至是“核爆级”增长。
“我刚参加工作的时候,在地面上放一炮,接收深度1000米,最多能到1500米。”龚仁彬回忆道。那时的勘探更像是在浅水区摸石头,而现在勘探的深度,已经达到了惊人的1.5万米乃至2万米。
不只是勘探深度的倍增,数据采集的维度也在几何级膨胀。过去放一炮,地面部署的接收传感器只有120个;现在放一炮,有几万个传感器同时在接收微弱的回波信号,采集到的数据呈现出了指数级增长。
“过去一个数据体可能只有几百兆,后来是几百个G,现在随便一个普通的地震勘探工区,都是几百个TB,有些能达到数十个PB级的数据量。”龚仁彬还讲述了自己亲历的一个“极端例子”,“为了拷取一个150TB的单体原始数据,光是物理拷贝的过程,就耗费了近一个月的时间。”
第二个挑战是海量庞杂数据对高性能计算(HPC)的“压力”。
油气勘探可以比作是给地球做CT,采集的数据越多、处理得越精细,对地下地质结构的了解就越准确,找到油的可能性就越大。如果不进行去噪、反褶积、叠加等处理,PB级的数据几乎没有价值。
地震资料处理的一个完整流程多达几十步,涵盖数百个软件模块,涉及大量计算量大的并行作业,对计算精度、时效的要求,远非普通计算机可以满足的。从我国自主研发的“银河二代”巨型计算机开始,高性能计算就成了处理物探数据的“底座”。
时间来到2026年,油气勘探和油藏模拟已经是鲲鹏HPC最大的应用和创新场景之一。为了解决多任务、同数据体并行的海量运算需求,基于鲲鹏架构和全分布式存储构建的高性能计算平台,能够大幅降低I/O等待时间,以满足油气行业对运行速度、并行计算能力的严苛要求。
由此出现了一个“反常识”的现象:过去几年时间里,智能计算、大模型等概念占据了舆论焦点,但在AI for Science领域,智能计算应用总体仅占30%,大多数任务离不开HPC的精确计算能力。
就像在油气勘探的场景中,只有将HPC将数据彻底清洗干净,AI大模型才具备深度介入、寻找规律的基础。
02 工业级的大模型是怎样“炼”成的?
有了HPC清洗出的高质量数据,大模型的落地应用就有了土壤。但AI在油气行业的尝试,并不像想象中一帆风顺。
龚仁彬在对话中提到:早在1984年的时候,中文期刊文献里就提到了“人工智能”在地震资料处理中的应用。但随后的三十多年里,找油人绝大多数时间还是要靠“铁脚板”。一位经验丰富的专家通常需要1-2天才能识别一口新井,而一个油田每年就要完钻数千口井,工作强度可想而知。
原因并不难解释。传统模型过分把精力放在了各种算法的研究上,忽略了海量数据的投喂。
“我曾经看到过一篇文章,用34口井的数据跑出一个模型,就想做测井解释。好比一个赤脚医生,在村里治过34个人,就能在天下行医吗?”龚仁彬用一个生动的比喻,揭示了传统模型泛化能力差的缺陷。
转折点发生在2021年末。
龚仁彬在华为杭州研究院调研时,被盘古气象大模型的成功深深启发:既然可以利用海量的气象数据跑出一个显著提升预测能力的模型,为什么不能用海量的地震数据,跑一个用于油气勘探的“地震解释大模型”?
厘清了思路的龚仁彬,带领中国石油勘探开发研究院的团队,联合华为、中国移动等合作伙伴,开始了工业级大模型的“炼丹”。

为了保证投喂给大模型的“养料”绝对纯净,团队收集了鄂尔多斯、塔里木、四川等七大盆地共计6万平方公里、约200TB的真实业务数据。在前期的数据整理阶段,通过HPC与人工结合的方式,进行了“宁可错杀”的数据清洗——只要发现数据中掺杂了不合适的人工地质解释信息,就坚决切除,绝不让劣质数据把大模型“带偏”。
经过93天日夜不停地训练,“炼”出了一个80亿参数的垂直大模型,并迅速在业务一线进行了“实战”。
在四川南充地区,面对25600平方公里的超大数据体,传统的交叉项识别方法费时耗力,大模型介入后,只用10天时间就完成了识别任务,精度接近90%、效率提升了9倍;
在长庆油田的非常规致密气预测中,在没有依托探井数据的情况下,一周时间就跑出了传统方法需要三个多月的结果;
以往需要半年完成的解释工作,大模型最多两周就能出结果,工作效率提高了9到12倍……
让龚仁彬印象最为深刻的,是大模型涌现出的“反直觉”寻油能力。
传统勘探高度依赖专家的主观经验,过去是找油的法宝,现在却可能形成思维盲区。而大模型是纯粹的“唯物主义者”,擅长从海量数据中“掘金”,可以在被专家经验漏掉的数据中,精准捕捉到符合油藏特征的信号。
从“经验主导”向“数据驱动”的跨越,标志着在高性能计算、高质量数据的浇灌下,AI的种子终于在万米地下“生了根”,等待油气勘探行业的,将是从“地里找油”到“云端算油”的新纪元。
03 如何填补大模型落地时的“深坑”?
算力可以花钱买,模型可以联合攻坚,智能化道路上最难跨越的深坑却是——懂业务的不懂AI,懂AI的不懂油田。
在对话中,龚仁彬道出了传统能源行业最真实、也最无奈的痛点:“说实话,我们油气行业的工资待遇,是没办法招到真正的顶尖AI人才的”,并提出了极具实用主义色彩的“三层人才金字塔”破局策略。
第一层是懂业务的“提灯人”。
在内部筛选对AI感兴趣的资深业务人员,可能不会写代码,但对油气勘探有深刻的理解,能够准确定义问题并提出核心需求。
第二层是内部转化的“调参侠”。
即使招不到AI大牛,还可以从内部寻找数学、物理、物探基础好的年轻人,经过系统的AI培训后,承担开源算法的调试、常规模型的微调和训练工作,一步步成为AI落地的中坚力量。
第三层是外部借脑的“联合战队”。
在涉及底层创新、架构研发时,选择与华为、阿里爸爸、科大讯飞等科技企业,以及清华、北大等高校进行深度合作,让外部的通用AI技术,与内部深厚的行业know-how进行“碰撞”。

除了解决人才断层的系统性方案,龚仁彬还对盲目跟风大模型的行业乱象提出了“警告”。
作为操盘了多个国家级油气信息化工程的老将,龚仁彬总结了当前智能化转型中最容易踩的四个“坑”,即为了智慧而智慧,脱离生产实际;盲目搞大模型;重技术轻业务;重复建设严重。
其中“盲目搞大模型”是龚仁彬特别强调的问题,“既没有明确需求,也没有高质量数据支撑,想都没想干大模型目的是什么,就盲目上马。”如果数据基础不夯实,只会把模型“带进沟里”。
龚仁彬的观点,和中国工程院院士郑纬民不谋而合。
几个月前的一场行业会议上,中国工程院院士郑纬民在报告中明确提出了“HPC+AI for Science”的概念,并以石油勘探为例解释了高性能计算与人工智能协同催生的科研新范式:数据预处理仍由HPC完成,判断地下是否有石油的预测环节使用大模型。
隐藏在理性思考背后的,是千行百业数智化转型的新态势:纯粹的概念炒作正在退潮,取而代之的是深度的融合创新。
比如HPC与AI底座的深度融合计算,前端利用鲲鹏HPC的高吞吐清洗数据,后端利用大模型进行智能预测,形成完美的算力闭环;再比如产学研联动的复合型人才培养,正在打破以往理论研究与生产实际相脱节的壁垒,培养更多既懂行业也懂AI的年轻人……
有理由相信,当懂业务的“提灯人”照亮了前行的方向,“调参侠”与“联合战队”拉齐了技术水位,“HPC+AI”的算力底座夯实了路基,曾经横亘在AI与千行百业间的鸿沟,将被彻底“踏平”。
04 写在最后
万米地下的“计算战”,给当下狂热的“AI乱象”浇了一盆冷水,也为千行百业指明了一条更清晰的路径。
大模型从来都不是“即插即用”的产品,更不是包治百病的灵丹妙药。想要大模型在业务一线释放出应有的“魔法”,需要高性能计算清洗PB级的混沌数据、需要业务专家们梳理出明确的需求、需要在组织体系上承接“从数据到决策”的工程化链路。
正如龚仁彬在对话中的一句话:落地靠的是“双向奔赴”,不是单向技术推动,不是更大的模型,而是更深的融合。







