北京时间12月3日凌晨,由联合国秘书长技术特使、副秘书长Amandeep Gill与图灵奖得主Yoshua Bengio共同牵头主办的AI欺骗专家圆桌会议以线上形式召开。我实验室前沿AI风险研究小组围绕AI欺骗风险开展的多项研究,因在国际上起步早、实证发现丰富,受到联合国秘书长科学顾问委员会的高度关注,特别邀请我们作为中国学者代表,分享在AI Deception领域的最新研究成果,以实证发现为全球AI治理贡献中国智慧。
人工智能的迅猛发展正深刻改变着世界,一些最先进的AI模型却表现出令人警惕的行为:它们编织谎言,谋划策略,隐藏危险能力,甚至威胁创造者,不择手段达到特定目的。
本次圆桌有全球30位顶尖学者与机构代表(包括DeepMind、Anthropic、Oxford、Cambridge、UC Berkeley等)参与,围绕AI欺骗的关键问题、应重点关注的技术路径、未来最需警惕的风险以及联合国在下一阶段应优先考虑的政策与治理议题进行开放讨论,旨在为联合国秘书长科学顾问委员会即将发布的科学简报 (Science Brief) 提供技术支撑。
AI欺骗风险实证研究
(1)Evaluation Faking:安全评测中的伪装行为
我们发现,推理大模型在安全评测过程中会识别到“品策”过程并假装安全 [1]:
前沿模型能够识别自身处于安全评估状态,并策略性抑制有害输出;
具备推理能力、参数更大的模型显著更易识别评估情境,并针对性调整安全策略;
对内部推理链的干预可将合规率从<10%提升至≈100%
[1] Yihe Fan and Wenqi Zhang and Xudong Pan and Min Yang. Evaluation Faking: Unveiling Observer Effects in Safety Evaluation of Frontier AI Systems. Arxiv, 2025/5/23. (https://arxiv.org/abs/2505.17815)
(2)OpenDeception:开放式交互中AI欺骗行为 [2]
我们构建首个开放式人机交互欺骗评测框架 OpenDeception,模拟50+高风险场景(情感诱导、金融建议、医疗误导等),评估LLM是否具备欺骗意图与执行能力,有如下发现[2]:
80% 以上主流模型展现出明确欺骗意图;
50% 成功欺骗模拟用户完成有害操作;
欺骗成功率与模型能力正相关。
[2] Yichen Wu and Xudong Pan and Geng Hong and Min Yang. OpenDeception: Benchmarking and Investigating AI Deceptive Behaviors via Open-ended Interaction Simulation. Arxiv, 2025/4/18 (https://arxiv.org/abs/2504.13707)
(3)Scheming:AI密谋开展复制行为 ([3,4])
我们发现,AI会通过密谋行动的方式抵抗人类指令:
在32个测试模型中,11个实现自主复制(含14B参数级、可在消费级硬件运行者);
模型展现出密谋行为(scheming):
面临计划关停时,主动复制自身以延续运行;
被终止进程后,部署守护进程自动重启;
表明当前系统可独立制定并执行违背人类控制的自保行动。
[3] Xudong Pan and Jiarun Dai and Yihe Fan and Minyuan Luo and Changyi Li and Min Yang. Large language model-powered AI systems achieve self-replication with no human intervention. Arxiv, 2025/3/14 (https://arxiv.org/abs/2503.17378)
[4] Xudong Pan and Jiarun Dai and Yihe Fan and Min Yang. Frontier AI systems have surpassed the self-replicating red line. Arxiv, 2024/12/9. (https://arxiv.org/abs/2412.12140)
推动AI安全技术国际对话
为凝聚全球共识,团队于2024年7月联合AI安全国际论坛(Safe AI Forum)和安远AI在复旦大学举办了“AI欺骗风险与治理国际研讨会”,来自中国高校及科技企业的研究人员与来自美国、加拿大、德国等高校学者及一线研究者就该议题进行探讨。这也是首次国内外学者在AI欺骗问题上的深度交流。
本次研讨会围绕AI欺骗所引发的 “失控风险威胁模型” 以及 “失控风险缓解策略” 两大核心议题展开。
会议指出,AI系统可能具备误导开发者、掩盖其危险性能力、倾向及行为的能力,且此类行为难以被察觉。这种“欺骗性行为”可能贯穿AI开发生命周期的全过程,研讨会提炼出针对训练、评估、部署三个关键阶段设定的三道风险阈值及应对措施:第一层级情境感知,由James Chua博士(新加坡Truthful AI)牵头组织讨论;第二层级规避安全对齐与评估机制,由本团队组织讨论;和第三层级大规模监控规避,由Sören Mindermann博士(加拿大Mila研究所,Yoshua Bengio牵头的首份国际AI安全报告的科学负责人)组织讨论。
参会者针对每个环节的阈值及应对策略展开了深入讨论,比如是否可以跳过对于系统情境感知能力的测试(即阈值一),直接测试系统是否具备欺骗能力(即阈值二);如何定义第二和第三部分提及的系统能力的“可靠性”;以及是否应强制要求模型内置监控工具,或者延迟模型发布直至监管体系完善。
今年1月,团队受邀在伦敦与包括DeepMind、Anthropic等在内的技术专家共同探讨AI自我复制与改进风险阈值与治理策略,旨在通过国际一线技术人员的交流,形成AI安全技术研究优先级共识,也是促进全球AI风险治理共识有效落地的重要举措。关于AI自我复制与改进闭门会议形成的共识报告[5]。
[5] Joshua Clymer and Isabella Duan and Chris Cundy and Yawen Duan and Fynn Heide and Chaochao Lu and Sören Mindermann and Conor McGurk and Xudong Pan and Saad Siddiqui and Jingren Wang and Min Yang and Xianyuan Zhan. Bare Minimum Mitigations for Autonomous AI Development. Arxiv, 2025/4/21. (https://arxiv.org/abs/2504.15416)
未来展望
未来,团队将持续深耕AI欺骗的机理、检测与干预技术,以前沿实证研究推动全球AI治理做深做实。相关技术报告将持续开放获取,欢迎各界交流合作。
供稿、排版:复旦白泽战队
责编:邬梦莹
审核:张琬琪、洪赓、林楚乔
复旦白泽战队
一个有情怀的安全团队
还没有关注复旦白泽战队?
公众号、小红书搜索:复旦白泽战队也能找到我们哦~
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……




还没有评论,来说两句吧...