扫码订阅《中国信息安全》
邮发代号 2-786
征订热线:010-82341063
嘉宾介绍
王迎春
上海人工智能实验室安全可信Al中心联合负责人、研究员,主要从事人工智能价值设计、安全标准与评测科学研究。致力于构建多学科交叉、软硬结合的评测科学体系与安全治理解决方案,采用工程化路径“规则-技术-场景-评测”一体化推进人工智能治理原则落地,相关成果已在监管部门和行业应用落地。牵头的《人工智能安全作为全球公共产品》研究报告于2024年7月在世界人工智能大会期间发布,相关理念框架已成为业界广泛共识。
2025年9月11日,上海人工智能实验室安全可信AI中心联合负责人、研究员王迎春,在人工智能技术即将大规模落地应用、国家监管需求日益迫切的背景下,围绕“走向人工智能安全评估新阶段”主题展开深入分享,为构建行业共识的AI安全可靠评估平台及基础设施指明方向。
性能与安全失衡
AI发展亟需协同创新
王迎春指出,当前全球人工智能发展存在“重性能、轻安全”的“跛脚AI”现象,资源多集中于性能研发,安全研究投入相对不足。AI性能与安全应沿45度方向协同发展,允许短期波动但总体需兼顾,要求对AI底层技术路线与安全技术进行系统性创新。从行业现状来看,当前AI安全工作多停留在“Make AI Safe”的事后补救层面,即通过护栏、补丁等方式避免AI输出有害内容。王迎春介绍,上海人工智能实验室主张并已在此基础上推进“Make Safe AI”相关研发工作,从源头打造安全的人工智能,通过两条路线并行融合系统应对AI安全挑战。
新形势与新挑战
新智能形态催生革新需求
王迎春认为,随着智能体、多模态技术快速演进,端侧应用等呼之欲出,新智能形态带来新安全形势,原有评估方法、工具、范式已不适用。当前业界AI安全评测范式存在明显不足:一是静态基准测试,即采用标准数据集量化模型安全性能,易被研发团队作为“真题”进行针对优化;二是经验性测试,通过专家红队模拟攻击行为,难以规模化、自动化;三是真实世界监测,依赖用户反馈发现问题,但被动滞后,效果上属于亡羊补牢;四是可解释性与形式化验证,仍处于学界探索阶段,工程化应用尚未成熟。
王迎春指出,AI安全评估的新形势下主要面临三大挑战:一是评测方法创新不足,现有黑盒API测试存在“形式化”风险,题目泄露与刷榜问题广泛存在,评估结果常常难以反应真实风险,且与真实应用场景脱节,导致“考题型评测”出现“高分低能”;二是迭代失衡,模型产品研发与性能提升迅速,但安全手段与评测方法跟不上,为潜在风险埋下隐患;三是互认机制缺失:国内企业出海需求强烈,但国际缺乏权威公共测试平台与机制,“一次测试、多方互认” 需从底层构建。
重塑AI安全评估
“三个之变”破局关键领域难题
针对这些问题,王迎春提出重塑AI安全评估、构建新范式的思路。他强调,当前大量评测聚焦“水面上”的QA形式,难以探测“水面下”的风险,如智能体与医疗、金融领域结合后的潜在风险,以及AI大规模应用时集群涌现的新风险。而国内关键领域大模型落地受限,核心原因正是缺乏客观科学的安全评估体系,无法量化应用环节的风险,难以支撑准入政策制定。
为此,王迎春提出“三个之变”:一是“深度之变”,从“知其然”到“知其所以然”,通过评估探寻模型机理,追求可解释、可验证的评测,例如团队2023年开展的“fake alignment”(虚假对齐)研究便揭示了部分模型高分背后的问题;二是“定位之变”,从“事后评测”转变为“事前设计”,将评测纳入研发全流程,构建“以攻促防”的全链条闭环;三是“能力之变”,从经验性评测等“手工作坊/中医式”方式,转向系统性工程,构建可量化、可复现的平台与基础设施,实现工业化。
多维度技术实践
积极构建AI安全科学评测体系
王迎春介绍,在技术实践层面,上海人工智能实验室正推动AI安全评测从“通用安全评测”,逐步迈向“专业领域评测”“仿真与真实环境结合评测”,最终实现“持续迭代评测”。具体举措包括开发具身智能仿真平台、构建百万级AI智能体仿真技术、研发端侧评估系统、推出动态风险智能生成引擎与动态风险仿真环境;在医疗领域,实验室联合上海30多家三甲医院成立国内首个医疗大模型应用检测验证中心;并牵头制定国内首个AI安全评估国标《人工智能安全能力成熟度评估》,涵盖80多个评估点,联合几十家头部企业与评测机构,打造人工智能安全评测“母标准”。此外,针对长期应用风险评估难题,实验室还提出“安全评估平台化、装置化”,如研发AI认知风险评估装置,可在短期内模拟长期使用影响。
王迎春表示,上海人工智能实验室发布的“SafeWork”体系,能在提升其安全可信表现的前提下,同步提升模型性能。对于下一代AI安全评估,他展望到,需兼顾近、中、远期风险,深入细分行业开展评估,推动安全评估系统化、工程化、平台化、装置化。
最后,王迎春总结,未来上海人工智能实验室将持续发力,联合业界同仁共同构建我国科学客观的AI安全标准与评估体系,推动“Make AI Safe”与“Make Safe AI”深度融合,为人工智能向有益、安全、公平方向发展保驾护航。
(来源:风起江河)
分享网络安全知识 强化网络安全意识
欢迎关注《中国信息安全》杂志官方抖音号
《中国信息安全》杂志倾力推荐
“企业成长计划”
点击下图 了解详情
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...