CoDA开源:可在3D场景中检测和命名新物体

2023-10-08 13:35
摘要:CoDA是一个端到端的开放词汇3D目标检测框架,旨在同时实现新对象的定位和分类。它主要包括两大特点:1.3D新对象发现策略:利用3D几何先验和2D语义先验联合发现场景中的新对象,生成新对象的伪标签。2. 基于发现的跨模..

CoDA是一个端到端的开放词汇3D目标检测框架,旨在同时实现新对象的定位和分类。它主要包括两大特点:

1.3D新对象发现策略:利用3D几何先验和2D语义先验联合发现场景中的新对象,生成新对象的伪标签。

2. 基于发现的跨模态对齐:将3D点云特征与图像/文本特征对齐,利用已有类别和不断发现的新对象类别进行对齐,使对齐迭代增强。

项目地址:https://yangcaoai.github.io/publications/CoDA.html

新对象发现可以直接影响跨模态对齐,更好的特征对齐又可以反过来提升定位能力,形成一个统一的开放词汇3D检测框架。

CoDA的创新之处在于:

1. 提出利用3D几何和2D语义联合发现新对象,实现开放词汇场景下的新对象定位。

2. 基于发现的新对象,进行跨模态特征对齐,实现新对象的分类。

3. 新对象发现和跨模态对齐协同训练,相互促进,形成一个端到端框架。

与仅利用CLIP进行开放词汇检测的方法相比,CoDA可以发现更多新对象,同时检测更多已知类别目标,实现了更好的开放世界检测能力。

综上,CoDA是一个非常创新的开放词汇3D目标检测框架,旨在解决这个领域的两个核心问题:新对象的定位和分类,具有非常高的学术价值和应用前景。

更新于:2023-10-08 13:35