CVPR 2025:无需物理引擎,一个模型搞定图像渲染与分解
Uni-Renderer团队 投稿
量子位 | 公众号 QbitAI
无需物理引擎,单个模型也能实现“渲染+逆渲染”了!
在计算机图形和视觉领域,渲染是指将3D模型变成逼真的2D图片,逆渲染则是从2D图片分析出3D模型的各种属性(如材质、光照等)。
现在,从材质分解(逆渲染)——材质编辑——物体渲染的整个流程,都被统一到了一个框架中,且在性能方面达到了新SOTA。
该研究出自港科大广州以及趣丸科技,他们首创双流扩散框架Uni-Renderer,将渲染(生成图像)与逆渲染(分解材质、光照、几何)统一到单一扩散框架,实现“生成即分解”的闭环能力。
相关成果已被CVPR 2025接收,代码与数据全面开源。
研究团队表示,这一成果未来将重塑影视、游戏、AR/VR等产业的视觉生成管线。
首创双流扩散框架
正如开头提到,渲染是通过光线追踪或路径追踪,生成高质量的图像;逆渲染是在RGB图像中提取出对象属性,比如金属度、粗糙度以及光照细节。
传统方法需独立建模训练渲染器与逆渲染器,计算成本高效率低泛化差,两个过程也缺乏联系,精度和属性分解效果都有限。
而Uni-Renderer的双流扩散架构将两个过程建模为双条件生成任务,生成时以材质、光照为条件输出图像,分解时以图像为条件反推内在属性:
其中渲染流负责生成RGB图像:以VAE编码材质、法线、光照为条件,通过扩散过程生成图像,支持动态调整粗糙度/金属值(如“光滑棒球”秒变“金属质感”)。
而逆渲染流负责处理内在属性:以图像为输入,通过噪声预测网络分解属性, 并在网络内部进行跨流交互,实现信息传递融合优化协同。
此外,团队还采用了差异化的timestep调度策略,通过不同的timestep使模型区分渲染和逆渲染的映射关系,让这两者能更好协同。
最后,鉴于传统逆渲染因“材质-光照-几何”耦合性导致分解模糊。
因此,他们将逆渲染分解得到的属性,再次输入到渲染模块进行再渲染,并借助循环约束确保分解结果可重新生成一致图像,彻底告别“分解即失真”。
实测对比,性能碾压SOTA
1、材质编辑
对比Subias(过曝)、InstructPix2Pix(背景错误),Uni-Renderer精准控制高光与漫反射,如下图中“金属橙子”表面反射环境光照,细节逼真。
2、重光照
如下图所示,输入单张图像,直接替换环境光为“夕阳/霓虹”,模型自动调整漫反射与镜面反射,光影过渡自然,超越NvDiffRec的生硬效果。
3、真实场景
下图中,“水壶”逆渲染成功解析高频环境光,金属质感与粗糙度误差仅3%。
概括而言,通过在生成阶段,以材质、光照为条件输出图像;分解阶段,以图像为条件反推内在属性,效率提升了200%。
同时,Uni-Renderer强制内在属性与图像的一致性,在公开测试集上材质估计误差降低40%,光照分解PSNR提升30%。
另外,研究基于Objaverse构建业界最大规模多材质合成数据集,涵盖20万3D对象、121种材质/光照组合,支持高分辨率(1024×1024)训练。模型在未见过的真实场景中(如金属水壶、手机支架)仍能精准分解高光、粗糙度与复杂光照。
在渲染任务中,PSNR达30.72(对比基线28.09),逆渲染任务中,材质估计MSE仅0.118(优化方法0.316);重光照效果超越GaussianShader等方案,真实感拉满。
开源即用
目前团队对Uni-renderer同步进行了开源,包括:
代码库:支持一键训练/推理,兼容PyTorch生态;
合成数据集:20万对象+百万级材质-光照组合,涵盖数理化生多领域;
预训练模型:即插即用于游戏资产生成、影视后期、工业设计等场景。
这项研究的作者为陈知非, 许添硕以及葛汶杭,他们是来自于香港科技大学(广州)ENVISION实验室的博士生,师从陈颖聪教授。
(ENVISION实验室专注于视觉生成模型的研究,致力于探索其基本原理,以提高模型的质量、效率、多样性和可控性。)
小结一下,Uni-Renderer的提出,标志着视觉生成与解析从“分而治之”迈入“统一智能”时代。
其双流架构与循环约束机制,为跨任务联合优化提供了全新范式。
未来,团队将进一步融合真实数据,攻克复杂动态场景,让人工智能成为“全能视觉工程师”。
论文链接:https://arxiv.org/pdf/2412.15050GitHub
代码:https://yuevii.github.io/unirenderer-page/
实验室官网:https://envision-research.hkust-gz.edu.cn/index.html#news