点击蓝字
关注我
0. 这篇文章干了啥?
全面理解场景在各个领域中起着至关重要的作用,包括机器人技术、虚拟/增强现实和自动驾驶。该领域的一个基本挑战是从不完整的3D输入数据中同时估计完整的场景几何、语义和实例,这种数据通常由于遮挡和实际场景的复杂性而稀疏、嘈杂和模糊。尽管存在这些挑战,但实现这种理解水平对于使机器能够以智能和安全的方式与环境进行交互至关重要。
语义场景补全(SSC)通过从稀疏观测中推断出完整的场景几何和语义来解决3D场景理解问题。SSC方面取得了显著进展并日益受到青睐。最初的方法侧重于密集、规则和小规模输入点云的室内场景。最近发布的语义KITTI数据集引发了对于在室外驾驶场景中进行SSC的兴趣,这些场景由于输入点云的稀疏性、大规模性和密度变化而具有独特的挑战。
尽管当前的SSC技术表现出了显著的性能,但忽视了实例级别的信息和不确定性预测。缺乏实例级别预测阻碍了它们在需要识别和跟踪个体对象的应用中的效用,而缺乏不确定性估计则限制了它们在实际的安全关键应用中的部署。
为了解决这些挑战,我们提出了全景场景完成(PSC)的新任务,旨在从稀疏观测中全面预测场景的几何、语义和实例。我们提出了这一任务的第一个方法,名为PaSCo,它是一种受MIMO启发的集成方法,通过最小的计算成本提高了PSC的性能和不确定性估计。它将多尺度生成稀疏网络与变压器解码器结合起来,实现了一种以掩码为中心的实例预测策略。因此,我们引入了一种用于组合无序掩码集的新型集成技术。通过广泛的评估,我们的方法在PSC方面表现出优越性能,并为预测不确定性提供了有价值的见解。
下面一起来阅读一下这项工作~
1. 论文信息
标题:PaSCo: Urban 3D Panoptic Scene Completion with Uncertainty Awareness
作者:Anh-Quan Cao, Angela Dai, Raoul de Charette
机构:Inria、TUM
原文链接:https://arxiv.org/abs/2312.02158
代码链接:https://github.com/astra-vision/PaSCo
官方主页:https://astra-vision.github.io/PaSCo/
2. 摘要
我们提出了全景场景补全(PSC)任务,它将最近流行的语义场景补全(SSC)任务与实例级信息相结合,以产生对3D场景更丰富的理解。我们的PSC方案利用了基于混合掩码的技术,针对来自稀疏多尺度补全的非空体素。而SSC文献忽略了对机器人应用至关重要的不确定性,我们提出了一种有效的集成方法来估计PSC中的体素级和实例级不确定性。这是通过基于多输入多输出(MIMO)策略进行构建的,同时提高了性能,并在几乎不增加计算量的情况下获得更好的不确定性。此外,我们引入了一种聚合排列不变掩码预测的技术。我们的实验证明,我们的方法在三个大规模自动驾驶数据集上无论是在全景场景补全还是不确定性估计方面都超越了所有基线。我们的代码和数据可在此https://astra-vision.github.io/PaSCo/网址找到。
3. 效果展示
PaSCo 输出。我们的方法从稀疏的输入点云中推断出全景场景补全(PSC),同时评估体素和实例级别的不确定性。
4. 主要贡献
• 我们制定了全景场景完成(PSC)的新任务,将其扩展到Semantic Scene Completion以涉及实例。
• 我们提出的方法PaSCo利用了稀疏CNN-Transformer架构,具有多尺度稀疏生成解码器和变压器预测,针对广泛的点云场景进行了有效的PSC优化。
• 通过适应MIMO设置并引入一种新的无序集合集成策略,我们的方法提高了PSC性能并增强了不确定性意识,在三个数据集上均优于所有基线。
5. 基本原理是啥?
PaSCo概述。我们的方法旨在通过蒙版合成来预测给定不完整的3D点云的多种全景场景补全(PSC)变体,同时允许通过蒙版集成来进行不确定性估计。对于PSC,我们采用了一个稀疏的3D生成U-Net,并配备了一个变压器解码器。通过使用多个子网络,每个子网络都在不同的输入数据源的增强版本上运行,来实现不确定性感知。PaSCo允许首次进行全景场景补全,同时提供了一种稳健的不确定性估计方法。实例级的不确定性仅显示"事物"类别,以确保清晰度。
PSC 的架构。我们的架构基于一个稀疏生成 U-Net,与一个Trannsformer解码器耦合,在修剪后的非空体素上应用,以预测 PSC。
6. 实验结果
表1比较了PaSCo与4个基准模型在Semantic KITTI和SSCBench-KITTI360上的性能。我们的方法在两个数据集上的全景指标(全部、物体、材料)上都表现出优势。在Semantic KITTI上,我们的All-PQ†/PQ分别提高了+8.21/+5.62,在SSCBench-KITTI360上提高了+8.09/+3.45,这是由于我们对PSC采用的有效集成方法。此外,PaSCo在'物体'/'材料'两个类别的单独指标上也优于基准模型,在每个数据集上PQ分别提高了+6.36/+5.08和+0.9/+4.73。在辅助的mIoU指标上,我们的表现与其他模型相当,在Semantic KITTI上排名第一(+2.22),在SSCBench-KITTI360上排名第二(-0.27)。值得一提的是,我们注意到PSC和SSC指标之间并不直接相关,因为我们显著改善了前者。图4显示了我们定性的PSC结果同样展现出了视觉上的优势。总的来说,我们观察到与SCPNet*(我们最好的竞争对手)相比,PaSCo能够更好地将实例分隔开来,几何上的空洞更少。
不确定性估计。表2报告了使用我们架构的所有基准模型以及PaSCo和PaSCo(M=1)的不确定性。PaSCo(M=1)使用单个子网络。为了确保可比较的性能,我们将推断次数(对TTA和MC Dropout)和网络数量(对Deep Ensemble)设置为与PaSCo中子网络数量相等------即在Semantic KITTI上为3个,在SSCBench-KITTI360上为2个。值得注意的是,基准模型只能估计体素级别的不确定性,我们在这方面表现出了很大的优势。只有Deep Ensemble在Semantic KITTI上的体素ece接近第二(0.0428 vs 0.0426),尽管代价是≈ 3倍于我们的参数数量和3次推断。比较PaSCo(M=1)和PaSCo突出了我们的集成方法带来了明显的提升,同时增加了少量的参数(111M vs 115M)。
图5展示了Semantic KITTI和SSCBench-KITTI360上的PaSCo(M=1)和PaSCo的不确定性估计。为了清晰起见,实例级的不确定性仅显示"物体"类别。PaSCo(M=1)通常显示出高置信度,这可能是由于深度网络倾向于过度自信。对于体素级的不确定性,PaSCo在分割边界(如道路、人行道)、低密度区域和大缺失区域显示出增加的不确定性。对于实例级别,PaSCo在具有模糊预测的区域(如稀疏输入点或接近物体的区域)显示出更多的不确定性。
掩模集成。由于考虑不确定性的基准模型不估计实例的不确定性,我们将我们的置换不变集成方法应用于所有基准模型,以便为所有模型实现实例级别的不确定性估计。表3显示了我们的MIMO策略在所有指标上都优于基准模型,只需进行一次推断。
超出分布的影响。在文献中,不确定性经常被用作超出分布(OOD)鲁棒性的代理。为了补充我们的研究,我们在Robo3D上评估了八种类型的数据损坏(如雾、光束丢失、跨传感器、潮湿的地面等),每种都有三个强度级别(轻度、中度、重度)。我们在完整的24种损坏情况下进行评估,并在图6中绘制了实例和体素的不确定性,结果显示PaSCo相对于基准模型表现出了一致的改进。每个柱状图显示了一个方法在给定损坏情况下的平均不确定性,误差条显示了每个级别的最小和最大不确定性。有趣的是,我们注意到实例级(图6,左侧)和体素级(图6,右侧)的不确定性并不强相关,尽管方法在不同情况下的排名仍然相对稳定。对于实例级的不确定性('ins ece'),PaSCo在所有损坏情况下都明显优于所有基准模型,在体素级的不确定性('ssc ece')上有8种损坏情况中的7种改进。
7. 总结
我们首先解决了全景场景补全(PSC)问题,旨在从稀疏观测中完善场景的几何、语义和实例级信息。为了解决这个任务,我们引入了一种高效的集成方法,配合一种设计用于组合无序集合预测的新技术,提高了整体预测准确性和不确定性的可靠性。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
课程预告
课程主题:基于LiDAR与视觉序列融合的语义场景补全
课程时间:7月9日(周二)18:00
END
球分享
球点赞
球在看
分享、在看与点赞
只要你点,我们就是胖友
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...