2025北外滩网络安全论坛 | 上海人工智能实验室王迎春：走向人工智能安全评估新阶段 - 新鲜讯息

扫码订阅《中国信息安全》

邮发代号 2-786

征订热线：010-82341063

嘉宾介绍

王迎春

上海人工智能实验室安全可信Al中心联合负责人、研究员，主要从事人工智能价值设计、安全标准与评测科学研究。致力于构建多学科交叉、软硬结合的评测科学体系与安全治理解决方案，采用工程化路径“规则－技术－场景－评测”一体化推进人工智能治理原则落地，相关成果已在监管部门和行业应用落地。牵头的《人工智能安全作为全球公共产品》研究报告于2024年7月在世界人工智能大会期间发布，相关理念框架已成为业界广泛共识。

2025年9月11日，上海人工智能实验室安全可信AI中心联合负责人、研究员王迎春，在人工智能技术即将大规模落地应用、国家监管需求日益迫切的背景下，围绕“走向人工智能安全评估新阶段”主题展开深入分享，为构建行业共识的AI安全可靠评估平台及基础设施指明方向。

性能与安全失衡

AI发展亟需协同创新

王迎春指出，当前全球人工智能发展存在“重性能、轻安全”的“跛脚AI”现象，资源多集中于性能研发，安全研究投入相对不足。AI性能与安全应沿45度方向协同发展，允许短期波动但总体需兼顾，要求对AI底层技术路线与安全技术进行系统性创新。从行业现状来看，当前AI安全工作多停留在“Make AI Safe”的事后补救层面，即通过护栏、补丁等方式避免AI输出有害内容。王迎春介绍，上海人工智能实验室主张并已在此基础上推进“Make Safe AI”相关研发工作，从源头打造安全的人工智能，通过两条路线并行融合系统应对AI安全挑战。

新形势与新挑战

新智能形态催生革新需求

王迎春认为，随着智能体、多模态技术快速演进，端侧应用等呼之欲出，新智能形态带来新安全形势，原有评估方法、工具、范式已不适用。当前业界AI安全评测范式存在明显不足：一是静态基准测试，即采用标准数据集量化模型安全性能，易被研发团队作为“真题”进行针对优化；二是经验性测试，通过专家红队模拟攻击行为，难以规模化、自动化；三是真实世界监测，依赖用户反馈发现问题，但被动滞后，效果上属于亡羊补牢；四是可解释性与形式化验证，仍处于学界探索阶段，工程化应用尚未成熟。

王迎春指出，AI安全评估的新形势下主要面临三大挑战：一是评测方法创新不足，现有黑盒API测试存在“形式化”风险，题目泄露与刷榜问题广泛存在，评估结果常常难以反应真实风险，且与真实应用场景脱节，导致“考题型评测”出现“高分低能”；二是迭代失衡，模型产品研发与性能提升迅速，但安全手段与评测方法跟不上，为潜在风险埋下隐患；三是互认机制缺失：国内企业出海需求强烈，但国际缺乏权威公共测试平台与机制，“一次测试、多方互认” 需从底层构建。

重塑AI安全评估

“三个之变”破局关键领域难题

针对这些问题，王迎春提出重塑AI安全评估、构建新范式的思路。他强调，当前大量评测聚焦“水面上”的QA形式，难以探测“水面下”的风险，如智能体与医疗、金融领域结合后的潜在风险，以及AI大规模应用时集群涌现的新风险。而国内关键领域大模型落地受限，核心原因正是缺乏客观科学的安全评估体系，无法量化应用环节的风险，难以支撑准入政策制定。

为此，王迎春提出“三个之变”：一是“深度之变”，从“知其然”到“知其所以然”，通过评估探寻模型机理，追求可解释、可验证的评测，例如团队2023年开展的“fake alignment”（虚假对齐）研究便揭示了部分模型高分背后的问题；二是“定位之变”，从“事后评测”转变为“事前设计”，将评测纳入研发全流程，构建“以攻促防”的全链条闭环；三是“能力之变”，从经验性评测等“手工作坊/中医式”方式，转向系统性工程，构建可量化、可复现的平台与基础设施，实现工业化。

多维度技术实践

积极构建AI安全科学评测体系

王迎春介绍，在技术实践层面，上海人工智能实验室正推动AI安全评测从“通用安全评测”，逐步迈向“专业领域评测”“仿真与真实环境结合评测”，最终实现“持续迭代评测”。具体举措包括开发具身智能仿真平台、构建百万级AI智能体仿真技术、研发端侧评估系统、推出动态风险智能生成引擎与动态风险仿真环境；在医疗领域，实验室联合上海30多家三甲医院成立国内首个医疗大模型应用检测验证中心；并牵头制定国内首个AI安全评估国标《人工智能安全能力成熟度评估》，涵盖80多个评估点，联合几十家头部企业与评测机构，打造人工智能安全评测“母标准”。此外，针对长期应用风险评估难题，实验室还提出“安全评估平台化、装置化”，如研发AI认知风险评估装置，可在短期内模拟长期使用影响。

王迎春表示，上海人工智能实验室发布的“SafeWork”体系，能在提升其安全可信表现的前提下，同步提升模型性能。对于下一代AI安全评估，他展望到，需兼顾近、中、远期风险，深入细分行业开展评估，推动安全评估系统化、工程化、平台化、装置化。

最后，王迎春总结，未来上海人工智能实验室将持续发力，联合业界同仁共同构建我国科学客观的AI安全标准与评估体系，推动“Make AI Safe”与“Make Safe AI”深度融合，为人工智能向有益、安全、公平方向发展保驾护航。

（来源：风起江河）

分享网络安全知识强化网络安全意识

欢迎关注《中国信息安全》杂志官方抖音号

《中国信息安全》杂志倾力推荐

“企业成长计划”

点击下图了解详情