本文对美团技术团队在国际顶会CVPR 2025、ICLR 2025中发表的10篇论文进行介绍,这些论文是我们在图像生成、通用视觉分割、多模态文档理解、视频理解大模型、大模型效果评估、大语言模型的对齐和量化方法等方向上的技术沉淀和应用。
ICLR 全称为 International Conference on Learning Representations 国际学习表征会议,是致力于推进人工智能分支中表示学习专业(通常也被称为深度学习)的顶级会议。ICLR 与 ICML 和 NeurIPS 并列为三大机器学习和人工智能会议,在2025谷歌学术期刊与会议影响力榜单中排名第10。
01
TODO: Enhancing LLM Alignment with Ternary Preferences
论文类型:Poster
论文下载:
论文简介:本文提出了一种基于三元偏好的大语言模型对齐方法TODO,以解决现有方法(如直接偏好优化DPO)依赖二元偏好模型(Bradley-Terry模型)导致的局限性。针对实际偏好数据中普遍存在的噪声标签、响应质量相近的平局(tie)现象,本文扩展传统二元模型为三元偏好框架:首先提出TOBT模型,通过引入“平局”状态显式建模偏好、非偏好与平局关系,增强对复杂偏好的表达能力;在此基础上设计TODO算法,利用三元偏好数据优化模型对齐过程,提升对平局信息的利用率及噪声鲁棒性。
02
Earlier Tokens Contribute More: Learning Direct Preference Optimization From Temporal Decay Perspective
论文类型:Poster
论文下载:
论文简介:基于对现有方法的深入分析,我们发现当前研究普遍将整个序列中每个奖励的贡献视为均匀,这无法充分捕捉偏好优化中的细微差别。具体而言,序列中的时间动态可能影响某些词或片段的重要性。通过对三种广泛使用的开源模型进行KL散度分析,观察到早期词的分布更受DPO影响,随着位置的增加,KL散度逐渐减小。这一发现与先前研究一致,即对齐在早期词更为关键,因为准确的前缀能够为后续词生成提供更可靠的基础。
03
Denoising with a Joint-Embedding Predictive Architecture
论文类型:Poster
通过系统实验验证,相比单一的扩散模型、自回归架构以及已公开的融合架构相比,该方法在计算效率、生成质量、跨模态迁移性等方面具备综合优势,为下一代多模态生成发展提供了新的技术范式。
04
QQQ: Quality Quattuor-Bit Quantization for Large Language Models
论文类型:WorkShop
CVPR(Computer Vision and Pattern Recognition)是计算机视觉和模式识别领域的顶级国际学术会议,会议为研究者提供了一个交流最新研究成果和技术进展的平台,涵盖了计算机视觉的各个方面,包括图像处理、视频分析、视觉生成、多模态大模型等。2025年,CVPR共收到全球13,008篇论文投稿,最终接收了约2878篇,接收率约为22.1%。
05
TokenFocus-VQA: Enhancing Text-to-Image Alignment with Position-Aware Focus and Multi-Perspective Aggregations on LVLMs
论文地址:
目前对图片和文本的一致性评估多关注整体表现,容易忽略文本描述和图像内容之间的重要细节匹配。为了解决这个问题,我们提出了一个叫TokenFocus-VQA的方法,它使用视觉问答的方式结合位置特定的策略来优化大型视觉语言模型。我们的创新点在于设计了一种专门关注关键细节的损失函数,这个函数特别注重与重要语义相关的词汇位置上的概率分布,从而实现了更精确的细节匹配。这个框架还结合了集成学习技术,从不同的视觉语言模型中汇集多个视角的评估,从而提高了性能。
06
HyperSeg: Towards Universal Visual Segmentation with Large Language Model
论文类型:CVPR Main Conference
论文地址:
07
Marten: Visual Question Answering with Mask Generation for Multi-modal Document Understanding
论文类型:CVPR Main Conference
论文下载:
论文简介:多模态大语言模型(MLLMs)为文档图像理解引入了新维度,即赋予大语言模型视觉理解能力。然而,如何设计合适的图文预训练任务在MLLMs中桥接视觉和语言模态仍然未被充分探索,尤其是图像中细粒度的文本内容如何被准确捕获。在本研究中,我们引入了一种新颖的视觉-语言对齐方法,将关键问题转化为Visual Question Answering with Mask generation(VQAMask)任务,同时优化两个任务:基于VQA的文本解析和掩码生成。前者使模型能够在语义层面隐式对齐图像和文本,而后者引入了一个额外的掩码生成器(在推理过程中被舍弃),以显式确保图像中的视觉文本与其对应的图像区域在空间感知层面上的对齐。两者结合,可以防止模型在解析视觉文本时产生幻觉,并有效促进空间感知特征表示学习。
为了支持所提出的VQAMask任务,我们构建了一个全面的图像掩码生成管道,并提供了一个包含600万数据的大规模数据集(MTMask6M)。随后,我们证明引入所提出的掩码生成任务在文档图像理解性能上具有竞争力。利用所提出的VQAMask,我们引入了一种专为文档图像理解量身定制的高效训练MLLM,称为Marten,广泛的实验表明,Marten在文档图像理解任务中取得显著提升,更快、更准、部署成本更低。
08
LLaVA-ST: A Multimodal Large Language Model for Fine-Grained Spatial-Temporal Understanding
论文类型:CVPR Main Conference
论文下载:
论文简介:本研究针对多模态大语言模型在时空联合定位任务中的核心挑战——时空坐标组合爆炸性增长导致的跨模态对齐困境,以及视频特征压缩过程中细粒度信息保真度不足的共性问题,提出创新性解决方案LLaVA-ST模型。该方法通过创新的特征对齐机制、时空特征压缩器和多阶段训练策略,有效解决了上述关键难题,为复杂时空场景的多模态理解提供了新的技术范式。
为提升模型对复杂时空关系的理解能力,研究团队构建了包含4.3M样本的ST-Align数据体系,并提出包含时空视频定位(STVG)、事件定位与描述(ELC)、空间视频定位(SVG)多维度的MLLM时空交错理解benchmark。实验验证表明,LLaVA-ST在涉及细粒度时序理解、空间定位及时空交错多模态理解等11类基准测试中均展现出卓越性能,展示了其在视频理解、具身智能、自动驾驶等领域的广泛应用潜力。
09
Q-Eval-100K: Evaluating Visual Quality and Alignment Level for Text-to-Vision Content
论文类型:CVPR Main Conference
论文下载:
论文简介:评估文本到视觉内容的生成效果主要取决于两个关键的方向:视觉质量和对齐度,尽管之前已经发表过很多类似的工作用于评估这些维度,并且也取得了一定的进展,但此类模型的性能很大程度上都依赖于人工标注的规模和质量;有一定证据表明,数据质量和标注规模的上升,将有助于提升评估模型的性能。
因此,我们构建了目前规模最大的AIGC质量评估数据集Q-EVAL-100K以及对应的统一AIGC视觉评估框架Q-Eval-Score,该数据集包含了100k(6 万张图像和 4 万个视频)的人工标注分数,并着重关注对齐度和视觉质量;在这个大规模数据集的基础上,评估框架Q-Eval-Score在AIGC图像/视频的视觉质量评估和对齐度评估上都取得了相当优异的性能。
10
Diffusion-4K: Ultra-High-Resolution Image Synthesis with Latent Diffusion Model
论文类型:CVPR Main Conference
论文下载:
美团在ICLR 2025会议现场设有展位【展位号J07(Column J, Row 7)J列,第七行】,美团的论文作者、技术专家、HR也会到达现场,欢迎大家来交流!
时间:Thu Apr 24 – Mon Apr 28th, 2025
论文分享会
---------- END ----------
美团科研合作致力于搭建美团技术团队与高校、科研机构、智库的合作桥梁和平台,依托美团丰富的业务场景、数据资源和真实的产业问题,开放创新,汇聚向上的力量,围绕机器人、人工智能、大数据、物联网、无人驾驶、运筹优化等领域,共同探索前沿科技和产业焦点宏观问题,促进产学研合作交流和成果转化,推动优秀人才培养。面向未来,我们期待能与更多高校和科研院所的老师和同学们进行合作。欢迎老师和同学们发送邮件至:[email protected]。
|
|
|
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...