超级CSO研修班 | 冯景辉:大模型安全治理实践与全链路防御体系构建
随着生成式AI技术的爆发式发展,大模型已深度渗透金融、医疗、工业、政务等关键领域,成为驱动产业数字化转型的核心引擎。然而,技术迭代的加速度与安全体系建设的滞后性形成鲜明反差,数据污...
这是关于 强化学习 标签的相关文章列表
随着生成式AI技术的爆发式发展,大模型已深度渗透金融、医疗、工业、政务等关键领域,成为驱动产业数字化转型的核心引擎。然而,技术迭代的加速度与安全体系建设的滞后性形成鲜明反差,数据污...
在本期“深思考模型与强化学习”专题中,经验丰富的一线专家学者从基本概念、方法迭代、软硬协同等多个维度展开论述,争取为读者呈现一幅关于深思考时代的立体全景图。2025年1月20日,距...
一、概述本文提出 RIVAL(Reinforcement Learning with Iterative and Adversarial Optimization),一种针对机器翻...
「星连资本(Z基金)」是专注于大模型生态的风险投资基金,侧重早期,管理规模 15 亿元人民币。「Z计划」是面向未上市初创企业与优秀独立开发者/团队,提供 Tokens 赞助、投资支...
近日,在被誉为“Text-to-SQL领域试金石”的国际权威评测基准BIRD-Bench上,中新赛克凭借其自研的Sinovatio-SQL系统,在竞争异常激烈的全球榜单中双双跻身第...
大规模强化学习作为关键路径,能够有效激发大模型复杂推理能力并显著提升其任务泛化性。近期,快手 Kwaipilot 团队重磅发布了 KAT-Dev-72B-Exp,在软件开发能力评测...
近日,快手 Kwaipilot 团队发布了 SeamlessFlow 技术报告,这是对团队所使用的工业级规模强化学习(RL)训练框架的详细介绍。该框架通过创新的数据平面架构,对RL...
在大语言模型的竞争中,数学与代码推理能力已经成为最硬核的“分水岭”。从 OpenAI 最早将 RLHF 引入大模型训练,到 DeepSeek 提出 GRPO 算法,我们见证了强化学...
在短视频与直播混合推荐的场景中,直播推荐系统(RS)需在每次用户请求时决定是否插入直播。不当的直播分配策略会损害用户长期体验,显著降低应用使用时长和留存率。因此,制定最优的直播分配...
捷报频传!继强势入围决赛后,数达安全再攀高峰!在刚刚揭晓的第三届人工智能产品应用创新创业大赛中,数达安全(北京)科技有限公司凭借创新力作——《基于AI大模型的数据安全智能风险监测系...