我是@卜寒兮，这是我在公众号发布的第【28】篇原创内容，主要唠点【科技| AI |科研】方面的内容，感兴趣的可以点击下方关注。

欢迎关注👆

前两天就注意到这个工作了，看到“三大会”和不少大佬都转发了，今天有时间赶紧读了一下。

论文提出的V-Triune是一个用于训练视觉语言模型（VLM）的通用基础框架，亮点在于能够将多种视觉推理任务和视觉感知任务统一处理，同时优化多模态模型的这两类能力。

通俗地说，V-Triune 把多模态大模型的视觉推理能力（比如数学推理、图表理解、科学问题等）和传统 CV 的下游任务（如目标检测、定位、OCR 等）都揉进了一个系统框架内，统一地训练。一个模型用 V-Triune 框架训练之后，它的推理能力和视觉感知能力都可以明显提升，特别是对于需要复杂推理和精确感知的任务。

可以看下面的结果来直观感受一下，Orsta-7B/32B 分别是以 Qwen2.5-VL-7B/32B 为基础模型，通过 V-Triune 框架训练得到的。

可以看到在 MEGA-Bench Core 基准上，Orsta 模型的表现提升很明显，特别是 32B 模型，V-Triune 强化学习训练之后，性能最高提升了 14.1%。

同时在更多下游任务上，都有不同程度的提升，注意到视觉感知任务的提升尤其明显（20.2%）。

Orsta 7B 和 32B 模型已经在 HF 上开源了，感兴趣的也可以自己跑一下：

• https://huggingface.co/One-RL-to-See-Them-All

以及 V-Triune 的项目地址和文章链接：

• https://github.com/MiniMax-AI/One-RL-to-See-Them-All
• https://arxiv.org/pdf/2505.18129

V-Triune：统一的视觉任务强化学习框架

大家都知道，强化学习现在是在 post-training 阶段提升大模型性能的主要手段，目前 top 级别的主流推理模型基本上都是用 RL 训练的，包括 DeepSeek R1 和 OpenAI o 系列等等。

与现实世界交互，模型光有推理能力显然是不够的，还需要具备精确的感知能力。所以当我们提到更高级的智能，提升大模型的通用性，就不能不考虑多种模态信息的加入，视觉语言模型相当于给 AI 安了“眼睛”。

但是在强化学习的技术路线中，视觉语言模型的情况比 LLM 会复杂很多，特别是当你需要考虑多种任务场景的时候，视觉信息本身就带来更高的复杂性，比如说空间信息和对感知精度的要求。再加上不同的感知任务和视觉推理在数据格式、奖励和学习策略，以及评估指标这些方面都有巨大差异，你把数学推理任务的 RL 方法直接用到目标检测上，那肯定是行不通的。

不必说传统的 CV 领域，每个问题拿出来都是一个独立的研究方向。现阶段 VLM 的研究也要么集中于推理能力的提升，要么针对单一的感知任务进行针对性优化。

而 MiniMax 的 V-Triune 就是针对这种局限提出的一种 RL 框架，它能够系统性地统一推理和感知任务，将以往针对单个任务的“点状”优化扩展成一种“面状”的系统化方法。

核心技术

V-Triune 的核心是通过三个互补的组件实现对不同任务的统一处理，也就是题目中所谓的“三重统一”：

• 样本级数据格式化 (Sample-Level Data Formatting)
• 验证器级奖励计算 (Verifier-Level Reward Computation)
• 数据源级指标监控 (Source-Level Metric Monitoring)

1、样本级数据格式化

首先样本级数据格式化解决统一处理不同任务的输入和奖励需求的问题，V-Triune 允许每个训练样本自定义其奖励设置和选择的验证器，所以在处理异构数据和动态调整奖励策略方面可以更加灵活。

比如论文中给出一个典型的样本数据结构⬇️

每个训练样本本身就携带了足够的信息，来指导模型如何处理它，以及如何评估模型的响应并计算奖励。

训练系统在处理每个样本时，会根据verifier字段，将模型的输出和样本的reward_model信息动态地分配到相应的验证器进行奖励计算。比如数学推理任务奖励基于文本匹配，目标检测任务奖励基于 IoU 指标。

2、验证器级奖励计算

验证器级奖励计算紧随样本级数据格式化之后，是 V-Triune 系统处理多样化任务奖励计算的具体执行环节。

它的核心思路是将特定任务的奖励计算逻辑封装在独立的“verifier”模块中，例如数学题有数学验证器，检测任务有检测验证器。

参考论文中的这张图，RL训练器在生成模型响应后，会从数据加载器中收集一批样本。对于每个样本，它会将模型的输出 (response)、样本的 ground_truth、以及在样本级数据格式中定义的 verifier 名称、verifier_parm（如动态IoU阈值）、accuracy_ratio、format_ratio 等信息，打包成一个结构化的数据包发送给奖励服务器计算奖励值。论文提到使用FastAPI框架来实现这个奖励服务器。

3、数据源级指标监控

数据源级指标监控强调对每个数据源的训练指标进行细致追踪。

这一点对于想要使用V-Triune训练模型的是比较友好的，因为在这种复杂的RL系统中，准确的跟踪训练过程是保证稳定性和可调试性的前提。尤其对于多任务学习这种各任务间可能存在协同关系的场景，源级别的细致监控可以及时发现数据质量问题，观察不同任务间的学习动态，也能在出现问题时帮助排查原因，从而进行针对性的调整。

上面提到的这三点可以说分别从输入数据的异构性、奖励机制的差异性和训练过程的复杂性三个方面，针对性的解决VLM在多任务和多模态情况下进行强化学习的固有矛盾。

算法创新

除了理论框架上的技术创新，论文也提出了一些算法层面的trick。

比如动态 IoU 奖励机制，IoU 是衡量目标检测和基准定位方法的常用指标，实际上就是预测的box和真值box的交集面积与并集面积的比值，值越大表示预测效果越好。

在强化学习中，IoU也被用于奖励计算，一种直接的方式是设定一个固定的IoU阈值，当模型预测的IoU大于等于该阈值时，给予一个正奖励，否则为0。

但是作者发现采用固定的IoU阈值作为奖励机制，会有几个问题：

• 冷启动。如果阈值设置得过高，模型在训练初期由于性能不足，就很难达到这个阈值。这就导致模型在早期几乎无法获得正向的奖励信号，所以学习过程非常缓慢，甚至难以启动。
• 奖励信号不充分或过于宽松。如果阈值设置得过低，模型可能较容易获得奖励，早期还可以，但当模型能力提升后，这个较低的阈值可能不再具有足够的区分度。也就是说，模型可能满足于一个较低的性能水平就不再提高了。

所以，论文提出了动态IoU奖励机制。其思想也比较容易理解，就是不使用固定的IoU阈值，而是在RL训练过程中，根据训练的进展逐步调整IoU阈值。训练初期设置一个较低的阈值，随着训练的进行，不断调高IoU阈值。为模型提供了从宽松到严格的渐进式学习目标，这也比较符合人类学习的过程——从易到难。

结果证明这种策略能解决冷启动和学习动力不足的问题。