兰州大学 | 信息科学与工程学院两篇多模态大模型视频分割研究论文被国际顶级期刊IEEE TIP同一时间录用 - 新鲜讯息

近日，兰州大学信息科学与工程学院两篇关于多模态大模型视频分割研究论文“Fast Track Anything with Sparse Spatio-Temporal Propagation for Unified Video Segmentation”和“Video Decoupling Networks for Accurate, Efficient, Generalizable, and Robust Video Object Segmentation”同一时间被图像处理领域国际顶级期刊《IEEE Transactions on Image Processing》(IEEE TIP，CCFA类，SCI1区Top，影响因子：13.7)接收。胡斌教授是通讯作者，第一作者是党吉圣副教授，论文的合作者还包括新加坡国立大学蔡达成院士、中山大学赖剑煌教授、郭裕兰教授、郑慧诚教授、国防科技大学李璋教授等。

近年来，随着自动驾驶、视频编辑、机器人视觉等应用的快速发展，视频分割技术成为人工智能与计算机视觉领域的核心课题之一。传统视频分割方法多依赖于逐帧处理或密集时序传播，存在计算效率低、对动态信息捕捉不足、泛化能力弱等问题。研究团队围绕这些挑战展开攻关，采用多模态大模型技术，统一多个视频处理任务，从时空信息建模与视频结构解耦两个维度提出创新解决方案。

在题为《Fast Track Anything with Sparse Spatio-Temporal Propagation for Unified Video Segmentation》的论文中，团队提出了稀疏时空传播大模型框架，首次将稀疏传播机制引入视频大模型来统一多个视频分割任务。该方法通过在视频大模型中构建动态3D时空卷积，并结合时空聚合读取策略，在保证高精度的同时降低计算复杂度。实验表明，提出的稀疏传播大模型在视频全景分割、开放世界视频分割、指代视频分割、视频目标分割和无监督视频分割五大任务、11个数据集上均达到优越的分割准确率和强的泛化性，尤其在低帧率视频中表现出极强的鲁棒性，为现实生活中实时视频处理应用提供了可靠技术支持。

另一篇题为《Video Decoupling Networks for Accurate, Efficient, Generalizable, and Robust Video Object Segmentation》的论文则提出了视频解耦网络，创新性地引入先解耦后融合机制，将视频动态分解为场景、运动与实例三大基本要素，通过统一先验的时空解耦器实现高效的多线索融合。该方法在保持高精度分割的同时，实现速度提升，并在跨域泛化与抗噪声干扰方面表现突出，为现实应用场景的复杂场景下的视频理解提供了新思路。

信息学院胡斌教授团队党吉圣副教授指导的具身智能研究小组主要致力于多模态大模型构建和训练、具身智能机器人、视频分割以及多模态推理等领域的相关研究。可以为自动驾驶、机器人导航、智能监控等实际应用提供了新的算法基础。未来，团队将继续围绕健康大模型、多模态大模型、具身职能机器人以及视频推理等前沿方向展开深入研究，致力于推动人工智能大模型的研发及应用，为构建通用人工智能安全可信大模型提供关键技术支持。

来源：兰州大学

往期精彩回顾

信息网络安全

《信息网络安全》创刊于2001年，是由公安部主管，公安部第三研究所、中国计算机学会主办，面向国内外公开发行的国内首批信息安全类期刊之一，于2015年成为中国科技核心期刊，2017年成为中国科学引文数据库来源期刊，2018年成为中文核心期刊，2022年入选CCF计算领域高质量科技期刊分级目录。

中文核心期刊

中国科技核心期刊

中国科学引文数据库来源期刊

CCF计算领域高质量科技期刊

我们在不断努力和完善中，期待您的关注和支持！