快手发布SeamlessFlow框架:完全解耦Trainer与Agent,时空复用实现无空泡的工业级RL训练!
近日,快手 Kwaipilot 团队发布了 SeamlessFlow 技术报告,这是对团队所使用的工业级规模强化学习(RL)训练框架的详细介绍。该框架通过创新的数据平面架构,对RL...
这是关于 强化学习 标签的相关文章列表
近日,快手 Kwaipilot 团队发布了 SeamlessFlow 技术报告,这是对团队所使用的工业级规模强化学习(RL)训练框架的详细介绍。该框架通过创新的数据平面架构,对RL...
在大语言模型的竞争中,数学与代码推理能力已经成为最硬核的“分水岭”。从 OpenAI 最早将 RLHF 引入大模型训练,到 DeepSeek 提出 GRPO 算法,我们见证了强化学...
在短视频与直播混合推荐的场景中,直播推荐系统(RS)需在每次用户请求时决定是否插入直播。不当的直播分配策略会损害用户长期体验,显著降低应用使用时长和留存率。因此,制定最优的直播分配...
捷报频传!继强势入围决赛后,数达安全再攀高峰!在刚刚揭晓的第三届人工智能产品应用创新创业大赛中,数达安全(北京)科技有限公司凭借创新力作——《基于AI大模型的数据安全智能风险监测系...
安全资讯[法规] 《治安管理处罚法》( 2012版 VS 2025版)新旧对照表安全技术[数据挖掘] 用于代码分析的大型语言模型:LLMs真的能胜任吗?[运维安全] 基于全网资产台...
具身智能,作为人工智能迈向物理世界的核心技术,正在打破虚拟与现实的边界。通过赋予AI以感知、行动、学习的闭环能力,具身智能正在重塑算法、系统和应用之间的关系,推动从虚拟仿真到实体执...
近日,渊亭科技自主研发的“面向兵棋推演的智能决策方法、装置及存储介质”荣获国家知识产权局发明专利授权。该发明提出了一种基于“任务—行为”的多智能体强化学习分层训练方法,旨在解决兵棋...
在大规模云数据中心中,虚拟机(VM)调度是保障计算资源高效利用的关键环节。尽管初始调度(VMS)已被广泛研究,但运行一段时间后的虚拟机重调度(VMR)问题却长期被忽视。VMR 指的...
扫码订阅《中国信息安全》邮发代号 2-786征订热线:010-82341063在大模型的训练中,强化学习算法一直是提升模型性能的关键。然而,其面临着计算资源要求高、训练速度慢等问...
我是@卜寒兮,这是我在公众号发布的第【28】篇原创内容,主要唠点【科技| AI |科研】方面的内容,感兴趣的可以点击下方关注。欢迎关注👆前两天就注意到这个工作了,看到“三大会”和不...