仅用4个相机实现亚厘米级控制?海睿未来视觉着箱技术解析
在港口自动化作业中,着箱始终是控制算法中最棘手的“最后一米”。
传统的自动化着箱方案通常遵循“硬件堆叠”的逻辑:为了追求高精度,单台吊具可能集成了多个传感器(包括激光雷达、单目/双目相机等)。这种方案虽然在理论上增加了冗余度,但在实际工程中却带来了极高的多传感器标定成本和数据融合延迟。
海睿未来的视觉着箱系统(Visual Final Landing System)选择了一条不同的技术路径:极简硬件 + 算法补偿。仅复用吊具上原有的4个CCTV 相机,通过多模态前融合与专用视觉基础模型,实现了从首层着箱、精准抓箱到高层叠箱的全流程自动化。

本文将从技术视角
剖析这一系统
是如何在有限的硬件条件下
通过算法突破实现亚厘米级定位
核心挑战:
传统传感器的局限与视觉模型的瓶颈
港口自动化着箱对精度、速度和鲁棒性有着严苛要求。目前市场上的主流技术路径存在两方面的核心挑战:
1. 传统多传感器方案(如激光雷达/多相机阵列)的工程化局限:
硬件堆叠与成本: 传统方案为达到高精度,常采用硬件堆叠模式,集成多达 10-20 个传感器(包括激光雷达、双目或多目相机等)。这直接导致了极高的初始采购成本和系统复杂度。
多传感器标定难题: 传感器数量多,意味着需要复杂的坐标系统一和标定。在吊具长期高频次的震动、温度变化等工况下,标定容易漂移,导致系统维护成本高企,且需要频繁停机校准。
激光雷达的环境适应性挑战: 虽然激光雷达能提供精确的深度信息,但在港口特有的恶劣环境(如雨雪、浓雾、沙尘)下,衰减问题严重。此外,信号容易被集装箱表面的高反光区域干扰,影响数据可靠性。
2. 视觉基础模型在边缘侧的性能瓶颈:
实时性要求与推理延迟: 通用视觉大模型(如 DINO、SAM 等)参数量巨大,对算力需求高。在要求毫秒级反馈的工业闭环控制系统中,其推理延迟难以满足实时控制需求。
长尾场景(指港口不常见、非标准化的“例外”或“特殊情况”)鲁棒性不足: 通用模型缺乏针对集装箱特有“强干扰”的工业数据集训练,在面对特定光照突变、箱体严重锈蚀变形、或堆叠阴影时,其特征提取的泛化能力仍不足以支撑高精度作业。


▲码头堆场自动着箱场景
技术架构:海睿VFLS的三层架构

▲ 模型架构图
为了解决上述问题,HIRI VFLS系统构建了一套专用的技术栈,主要包含以下三个核心维度:
1. 轻量化港口专用视觉模型
不同于直接套用开源大模型,该系统构建了一个针对港口垂直领域的视觉基座。
数据驱动:利用长期积累的港口作业视频流(包含各类极端天气和异形箱),对模型进行微调控制。
多任务学习:在一个网络主干(Backbone)下同时输出多种任务结果,包括语义感知(箱体边缘、锁孔识别)和空间感知(深度信息、物体姿态估计、三维场景重建等)。
模型压缩:通过剪枝和量化技术,将模型推理速度优化至工业控制级标准。
2. 语义感知与空间感知联合技术路径
计算机视觉在工业自动化中的应用主要围绕两大核心任务:语义感知与空间感知。HIRI VFLS系统通过构建专用的视觉基础模型,实现了这两大能力的联合感知。
语义感知: 理解与解释图像中的内容。在VFLS 中,这实现了对箱体、锁孔、堆叠间隙等关键要素的准确识别和像素级归类 。

空间感知:测量与重建场景中的三维几何信息 。包括深度估计、物体姿态估计,结合语义感知的结果,实时计算箱体的位置、姿态与深度信息 。

▲ 单侧两个相机的空间感知结果
港口专用视觉模型通过多任务学习机制实现了强大的语义-空间联合感知能力;系统复用吊具上搭载的CCTV相机,显著提升了三维重建的精度与稳定性。
▲ 抓箱


▲ 首层着箱
3. 闭环控制逻辑:从TDS到亚厘米级落位
算法的最终目的是服务于控制。VFLS系统的作业流程被拆解为三个阶段,对应不同的精度需求:
高空阶段(TDS目标检测):利用语义感知,快速识别目标箱位,排除干扰物。
接近阶段(预调姿态):当吊具运行至目标排附近,基于空间感知模块输出的 3D 姿态信息,提前调整吊具的角度。
落位阶段(边下降边调整):进入“微操作”模式,利用视觉伺服(Visual Servoing)技术,将视觉偏差直接转化为PLC控制指令,实现亚厘米级的动态对中,直至闭锁。


海睿未来VFLS系统证明了在工业场景中,算法的深度可以弥补硬件的广度。通过构建垂直领域的视觉基础模型和采用前融合技术,我们不仅降低了客户的硬件部署成本(减少了 70%以上的传感器数量),更重要的是提高了系统在恶劣环境下的鲁棒性,为港口自动化提供了一套高效、可靠、易部署的智能着箱解决方案。




海睿未来官方账号



