强化学习 - 宙飒天下网

超级CSO研修班 | 冯景辉：大模型安全治理实践与全链路防御体系构建

随着生成式AI技术的爆发式发展，大模型已深度渗透金融、医疗、工业、政务等关键领域，成为驱动产业数字化转型的核心引擎。然而，技术迭代的加速度与安全体系建设的滞后性形成鲜明反差，数据污...

admin /新鲜讯息 /2025-12-12 /0 评论 /143 阅读

深思考时代——深思考模型与强化学习 | CCCF精选

在本期“深思考模型与强化学习”专题中，经验丰富的一线专家学者从基本概念、方法迭代、软硬协同等多个维度展开论述，争取为读者呈现一幅关于深思考时代的立体全景图。2025年1月20日，距...

admin /新鲜讯息 /2025-11-21 /0 评论 /149 阅读

RIVAL：面向机器翻译的迭代对抗强化学习

一、概述本文提出 RIVAL（Reinforcement Learning with Iterative and Adversarial Optimization），一种针对机器翻...

admin /新鲜讯息 /2025-11-01 /0 评论 /143 阅读

原小米智驾高管创业机器人一周年：务实、算账、万小时具身定律｜阿米奥机器人

「星连资本（Z基金）」是专注于大模型生态的风险投资基金，侧重早期，管理规模 15 亿元人民币。「Z计划」是面向未上市初创企业与优秀独立开发者/团队，提供 Tokens 赞助、投资支...

admin /新鲜讯息 /2025-10-29 /0 评论 /160 阅读

中新赛克AI技术斩获全球第六！BIRD-Bench权威评测见证硬核实力

近日，在被誉为“Text-to-SQL领域试金石”的国际权威评测基准BIRD-Bench上，中新赛克凭借其自研的Sinovatio-SQL系统，在竞争异常激烈的全球榜单中双双跻身第...

admin /新鲜讯息 /2025-10-29 /0 评论 /154 阅读

登顶SWE-Bench！快手KAT-Dev-72B-Exp，刷新开源SOTA！

大规模强化学习作为关键路径，能够有效激发大模型复杂推理能力并显著提升其任务泛化性。近期，快手 Kwaipilot 团队重磅发布了 KAT-Dev-72B-Exp，在软件开发能力评测...

admin /新鲜讯息 /2025-10-14 /0 评论 /247 阅读

快手发布SeamlessFlow框架：完全解耦Trainer与Agent，时空复用实现无空泡的工业级RL训练！

近日，快手 Kwaipilot 团队发布了 SeamlessFlow 技术报告，这是对团队所使用的工业级规模强化学习（RL）训练框架的详细介绍。该框架通过创新的数据平面架构，对RL...

admin /新鲜讯息 /2025-08-21 /0 评论 /339 阅读

快手Klear-Reasoner登顶8B模型榜首，GPPO算法双效强化稳定性与探索能力！

在大语言模型的竞争中，数学与代码推理能力已经成为最硬核的“分水岭”。从 OpenAI 最早将 RLHF 引入大模型训练，到 DeepSeek 提出 GRPO 算法，我们见证了强化学...

admin /新鲜讯息 /2025-08-19 /0 评论 /253 阅读

KDD 2025 | 告别推荐翻车：快手SL-MGAC精准稳定插播直播赢用户时长！

在短视频与直播混合推荐的场景中，直播推荐系统（RS）需在每次用户请求时决定是否插入直播。不当的直播分配策略会损害用户长期体验，显著降低应用使用时长和留存率。因此，制定最优的直播分配...

admin /新鲜讯息 /2025-08-06 /0 评论 /289 阅读

数达安全AI大模型方案荣膺AI创业大赛成长潜力奖，数据安全智能监测再获权威认可！

捷报频传！继强势入围决赛后，数达安全再攀高峰！在刚刚揭晓的第三届人工智能产品应用创新创业大赛中，数达安全（北京）科技有限公司凭借创新力作——《基于AI大模型的数据安全智能风险监测系...

admin /新鲜讯息 /2025-07-31 /0 评论 /169 阅读

关于强化学习的文章

超级CSO研修班 | 冯景辉：大模型安全治理实践与全链路防御体系构建

深思考时代——深思考模型与强化学习 | CCCF精选

RIVAL：面向机器翻译的迭代对抗强化学习

原小米智驾高管创业机器人一周年：务实、算账、万小时具身定律｜阿米奥机器人

中新赛克AI技术斩获全球第六！BIRD-Bench权威评测见证硬核实力

登顶SWE-Bench！快手KAT-Dev-72B-Exp，刷新开源SOTA！

快手发布SeamlessFlow框架：完全解耦Trainer与Agent，时空复用实现无空泡的工业级RL训练！

快手Klear-Reasoner登顶8B模型榜首，GPPO算法双效强化稳定性与探索能力！

KDD 2025 | 告别推荐翻车：快手SL-MGAC精准稳定插播直播赢用户时长！

数达安全AI大模型方案荣膺AI创业大赛成长潜力奖，数据安全智能监测再获权威认可！

搜索

最近发表

热门文章

标签列表

最新文章

热评文章

热门文章

站点信息

关于 强化学习 的文章

搜索

最近发表

热门文章

标签列表

最新文章

热评文章

热门文章

站点信息

关于强化学习的文章