大规模强化学习作为关键路径,能够有效激发大模型复杂推理能力并显著提升其任务泛化性。近期,快手 Kwaipilot 团队重磅发布了 KAT-Dev-72B-Exp,在软件开发能力评测基准 SWE-Bench Verified 上取得了74.6%的卓越性能,在开源模型领域创下新纪录。KAT-Dev-72B-Exp 是 KAT-Coder 模型强化学习的实验版本,我们借助这一开源模型揭秘 KAT-Coder 在大规模强化学习方向上的技术创新。
图1:在 SWE-Bench Verified 上,和全尺寸开源模型对比,KAT-Dev-72B-Exp 以74.6%的卓越性能创下新纪录
作为 Kwaipilot 在端到端复杂强化学习领域的前沿探索成果,该模型基于自研 SeamlessFlow 工业级强化学习框架,通过创新的数据平面架构实现了训练逻辑与 Agent 的完全解耦,成功支持多智能体和在线强化学习等复杂场景。针对复杂 Agent 场景的技术挑战,团队创新性地引入 Trie Packing 机制,并对训练引擎进行了重构优化,使模型能够高效地在共享前缀轨迹上开展训练。通过难度感知的策略优化,实现了探索与利用的平衡,并结合基于开源仓库构建的大规模端到端可验证软件工程任务,KAT-Dev-72B-Exp 在编程领域展现出强大的能力。
免费试用 KAT-Coder:
https://www.streamlake.ai/product/kat-coder
KAT-Dev-72B-Exp 开源地址:
https://huggingface.co/Kwaipilot/KAT-Dev-72B-Exp
一、Trie Packing
在大规模 LLM agentic training 场景中,由于各种 TTS 技术及 memory 机制,agent 在完成任务时所产生的 token 轨迹通常呈树形结构。对于这种复杂轨迹的训练方式,业界过往都是将树形轨迹拆解为若干条独立的线性序列。对于这一问题,我们重写了训练引擎以及 attention kernel,通过树形梯度修复权重,把共享前缀的前反向重复的计算合并,让模型能高效地在共享前缀的轨迹上进行训练。最终速度平均提升了2.5倍,大幅增加了 RL 训练的吞吐量。
二、熵感知的优势缩放
在强化学习的策略梯度优化中,优势函数直接与对数概率的梯度相乘,相当于为每个样本的梯度分配一个缩放因子。具体来说,对于策略,策略梯度为:
在实际训练中,通过样本估计梯度并进行参数更新:
可以看到,优势值A(s,a)直接作为梯度的缩放因子:绝对值越大,该样本在参数更新中的贡献越大;绝对值较小,则更新幅度也较小。因此,合理调整优势值能够引导模型将更多优化能力集中在最需要探索的样本上。
在 GRPO 中,优势函数主要依赖组内收益信息,而不考虑策略的探索性。这可能导致模型在训练过程中对确定性较高的样本过度关注,而忽略那些具有更高探索潜力的样本,从而限制策略的探索性,容易陷入局部最优。
基于这一观察,我们提出了一种基于熵的优势缩放方法:对每个 rollout 样本计算策略熵,并将其归一化后用作优势的放大系数。熵高的样本表示更高的不确定性和探索性,其优势将被放大,在梯度更新中占据更大比重;熵低的样本优势被相应缩小,避免过度优化低熵样本导致策略熵崩溃。该方法在保留 GRPO 组内优化结构的同时,有效增强了策略探索性,改善了 RL 训练过程中探索-利用的平衡。
三、总结与展望
在 agentic RL 训练过程中,模型训练的成功离不开高效、可扩展的数据环境支撑。传统方法往往局限于单一数据集和固定框架,导致模型在面对复杂现实场景时表现欠佳。通过持续的实践探索,Kwaipilot 团队逐渐意识到大规模 scaling 数据环境的重要性。这不仅是数据量的堆积,更是构建一个动态、灵活的生态系统,让模型能够从海量且多样化的数据中汲取营养,实现从“实验室玩具”到“实战高手”的跃升。
为此,Kwaipilot 团队正积极投入建设一套大规模数据环境管理系统。这套系统的核心在于实现训练数据、训练沙盒(sandbox)以及训练框架的完全解耦。通过这种设计,数据源可以独立扩展,而不会受限于特定框架的约束;沙盒环境则提供安全的隔离测试空间,避免干扰主流程;训练框架也能灵活切换,支持多种算法迭代。这种解耦机制极大提升了系统的模块化程度,让开发团队能够更高效地协作,避免了以往“牵一发而动全身”的瓶颈。
更重要的是,该系统显著加速了训练数据的扩充过程。我们的数据环境管理系统采用统一的数据协议,可以快速整合开源的以及各种多源数据环境。数据环境涵盖代码、数学、游戏、博弈等多个领域。在这样的环境中,模型可以通过 RL 反复迭代,逐步适应各种复杂情境,进一步增强其泛化能力。模型不再局限于单一的环境,而是能在跨领域的环境中自适应,也更能在没有见过的环境中有更好的表现,提升其鲁棒性和实用性。
🧑💻【体验方式】
访问 StreamLake 万擎(https://console.streamlake.com/wanqing/),申请 KAT-Coder API 并接入 Claude Code 体验使用。
💻【接入指南】
https://streamlake.com/document/WANQING/me6ymdjrqv8lp4iq0o9
本次活动自稿件发布日起至2025年10月15日24时截止。我们将于10月16日在评论区公布中奖名单,并通过后台私信通知获奖用户领取礼品。
期待大家体验分享,也欢迎把使用过程中的亮点和问题告诉我们,一起推动 KAT 系列模型不断进步!
”
欢迎加入
【Kwaipilot 团队招聘】
🧑💻【研发线大模型算法专家】
职位描述:
负责大语言模型技术在Agent场景的研究和应用,负责代码生成大模型的性能优化和定制化改进,以提升公司整体研发效率为目标,推动大模型技术在代码理解、代码自动生成、代码审核等研发流程中的落地应用。主要工作方向包括:
1. 通过算法创新与系统工程,刷新Agent的能力边界,效果达到世界领先水平。
2. 专注于大语言模型(LLM)的前沿技术研究与技术落地,包括但不限于RL,Agent等方向。
3. 发表ICLR、ICML、NeurIPS等顶会论文
任职要求:
1. 3年以上算法经验,有大模型项目经历者优先;
2. 对大规模RL训练有实践经验,或者对博弈论、多智能体、long-horizon、下一代RL范式等理论有深入理解者优先。
3. 具备优秀的逻辑思维能力,对解决挑战性问题充满热情,善于分析问题/解决问题。
加分项:
1. 以一作发表过优秀期刊或顶会论文;
2. 获得机器学习竞赛优异成绩。
投递方式:扫描下方二维码即可进行投递。
🧑💻【快Star-X】大模型应用算法工程师(北京)-智能研发中心
职位描述:
1. 负责通过基于大语言模型及多模态大模型的微调、prompts调优、指令构建及演化技术,将大模型的生成、理解、交互能力在公司核心业务场景应用落地,包括但不限于AIGC创意生成、视频处理、智能化特效、智能对话、代码生成、音视频传输、电商场景内容理解等;
2. 负责LLM及多模态大模型的应用中台及相关技术模块搭建,包括但不限于Agents 、RAG、 function call、system prompts等,探索大模型应用前沿及新兴应用场景;
3. 跟踪行业及大模型技术发展,结合业界前沿技术和业务需求,打造大模型应用的最佳实践;
4. 了解业务,与公司各技术团队密切配合,能与产品、运营等角色高效沟通需求和目标,发挥自己的主观能动性,设计技术解决方案,培养自己的良好的业务sense和综合素质。
任职要求:
1. 硕士及以上学历,计算机、人工智能、数学相关专业;
2. 有较强的工程实现能力,熟悉LLM及MLLM基本原理、大模型微调/RLHF等技术,熟悉C/C++、Python、Java等至少一门主流编程语言;
3. 对计算机视觉、自然语言处理、多模态、知识图谱、机器学习等相关领域有深入的理解,且有相关实际项目经验;
4. 对学术前沿有浓厚兴趣,时刻跟进技术前沿,并善于利用各类技术解决复杂的实际问题,有良好的沟通表达能力。
加分项:
1. 有LLM/M-LLM、AIGC、3D模型、智能对话、代码生成、知识图谱、观点情况分析等项目落地应用经验者优先;
2. 在计算机视觉、自然语言处理、多模态、机器学习等相关领域有顶级学术论坛发表优先;
3. 在ACM-ICPC/NOI/IOI编程竞赛或机器学习相关竞赛拿过奖项者优先。
投递方式:扫描下方二维码即可进行投递。
”
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...