第五届网络生态治理论坛——大模型安全攻防

随着推理模型、多模态超大模型及智能体的广泛应用，全球大模型的日均交互量已首次突破千亿次，相关安全事件数量也同比大幅增长。最新研究表明，自动化越狱等攻击技术持续演进，跨模型迁移攻击的成功率仍维持在较高水平，使得大模型安全的对抗性风险日趋严峻。

为应对上述挑战，红蓝对抗演练等攻防一体化体系正加速构建，为大模型全生命周期提供从攻击测试到实时防护的闭环解决方案。在治理层面，欧盟《人工智能法案》要求了对具系统性风险的人工智能开展模型评估与对抗性红队测试，并及时报告严重事件；而我国《生成式人工智能服务管理暂行办法》要求生成式服务实行安全评估、水印与及时处置和报告风险。

本届“第五届网络生态治理论坛——大模型安全攻防”将汇聚多所高校以及科研院所的一线专家学者，围绕大模型安全挑战、攻防前沿技术与治理实践展开深入研讨，共同探索构建可信、可控、可审计的大模型安全体系。

论坛安排

论坛名称：第五届网络生态治理论坛——大模型安全攻防|CNCC

日程安排：10月23日13:30-17:30

举办地点：哈尔滨工业大学-活动中心2层227-229影视欣赏厅

注：如有变动，请以官网(https://ccf.org.cn/cncc2025)最终信息为准

顺序	主题	主讲嘉宾	单位
1	人工智能安全的“八般苦”	虎嵩林	中国科学院信息工程研究所
2	前沿AI系统风险评测与治理	杨珉	复旦大学
3	大模型推理可信性与评测	赫然	中国科学院自动化研究所
4	迈向安全可信的通用人工智能：挑战、探索与未来方向	陆超超	上海人工智能实验室
5	社会科学启发下的大模型安全对齐评测方法	王文轩	人民大学
6	从语言到动作的全模态安全与对齐	戴俊韬	北京智源人工智能研究院
7	Panel 环节	杨耀东	北京大学
		虎嵩林	中国科学院信息工程研究所
		杨珉	复旦大学
		赫然	中国科学院自动化研究所
		陆超超	上海人工智能实验室

论坛主席

虎嵩林

中国科学院特聘（核心）研究员、中国科学院大学岗位教授

中国科学院信工所研究员，国科大岗位教授，人工智能安全与协同治理北京重点实验室执行主任，国务院政府特殊津贴获得者。主要研究内容安全、人工智能安全等，并作为应用总师承建多个国家级重大工程。牵头获得钱伟长中文信息处理科学技术一等奖、中国网络空间安全学会年度十大优秀成果奖，曾获中国专利奖、中国通信学会科技进步一等奖等科技奖励。

报告题目：人工智能安全的“八般苦”

摘要：随着人工智能安全问题逐渐引发全社会的的广泛重视，产学两界也掀起了研究与实践的热潮。报告将试图切换到旁观者的视角，"冷眼"观察热潮下的人工智能安全现状，分析其所面对的理论基础缺位、安全对齐脆弱高等重重困难，探讨红蓝对抗博奕发展的"救赎”之道及其实践路径。

论坛讲者

杨珉

复旦大学教授

复旦大学计算机科学技术学院院长，第八届国务院学位委员会网络空间安全学科评议组成员、教育部长江学者特聘教授、973项目首席科学家、国家重点研发计划首席科学家，现任复旦大学计算机科学技术学院院长、上海市网络空间安全战略研究所执行所长等职务，曾获国家网络安全优秀教师、上海市网络安全工作特殊贡献个人、上海青年科技英才、上海市青年五四奖章、上海市十大杰出青年提名等荣誉。

报告题目：前沿AI系统风险评测与治理

摘要：随着基础大模型和智能体技术迅速发展，前沿AI系统的自主性风险也已成为国际AI安全治理的重要开放问题：一方面，自主复制与提升将使得具备危险能力的AI系统能够进行无序扩散与演进；另一方面，AI系统在安全对齐与评测过程中自主出现欺骗行为，将造成人类监督者难以准确把握当前风险水位。为此，本报告将围绕前沿AI系统的自主复制与提升和欺骗能力的评测与治理，介绍国内外相关的最新研究进展，并分享复旦大学团队在上述方向的最新思考与研究发现。特别地，团队在国际上首次发现已有11款大模型能够在无人工干预情况下完成精确自我复制，能够在目标设备上形成独立存活个体，并在目标冲突条件下自发开展复制、并适应多样化目标环境、反抗人类关机指令等高危行为，引起国内外广泛关注，并为全球AI治理提供珍贵时间窗口。

赫然

CCF理事，中科院自动化所研究员

中科院自动化所多模态人工智能系统全国重点实验室研究员，IAPR/IEEE Fellow，IEEE TIFS副主编。从事人工智能、模式识别和计算机视觉研究。承担国家青年科学基金ABC类以及北京杰出青年科学基金等项目。在本领域国际主流期刊TPAMI和IJCV上发表论文23篇，第一作者11篇论文引用过百；研究工作获CAAI技术发明一等奖、CSIG自然科学一等奖、北京市科技进步二等奖等。指导学生获得IEEE SPS最佳青年论文奖、ICPR最佳科学论文奖、北京市优秀博士论文、中科院优秀博士论文、IEEE生物特征理事会优秀博士论文。曾/现任TIP资深编委、TPAMITCSVTTBIOMIJCVPRTMLR和自动化学报等国内外期刊编委，四次获最佳编委奖，以及NIPSICMLICCVCVPRECCVICLRAAAIIJCAI等会议领域主席。

报告题目：大模型推理可信性与评测

摘要：长程思维推理的发展显著提升了大型语言模型在多种任务中的表现，包括语言理解、复杂问题求解和代码生成。该范式使模型能够生成中间推理步骤，从而提升了准确性和可解释性。报告分析了近期关于推理模型和思维链技术的研究，围绕真实性、安全性、鲁棒性、公平性和隐私性五个维度介绍推理可信性的最新进展。

陆超超

上海人工智能实验室青年科学家

上海人工智能实验室青年科学家，安全可信AI中心负责人，上海交通大学和复旦大学兼职博导。分别在南京大学、香港中文大学、和英国剑桥大学获得学士、硕士、和博士学位。2023入选国家级海外高层次人才引进计划（青年）、2023年入选上海市海外高层次人才引进计划（青年）。现主要研究方向为大模型因果推理和大模型安全可信，致力于解决当前大模型在解释性不足、涌现机理不清楚、幻觉生成、安全信任问题、自我意识弱等一系列挑战，目标是赋予大模型因果推理能力，构建因果世界模型、打造自动化的智能科学家、创造具有自我意识的智能体，为实现自主、安全、可信的通用人工智能探索一条新的路径。

报告题目：迈向安全可信的通用人工智能：挑战、探索与未来方向

摘要：在人工智能能力持续跃迁的背景下，如何保障其安全性与可信性已成为全球关注的核心议题。当前的大模型系统面临诸多挑战，包括解释性不足、涌现机理尚不明晰、幻觉生成与事实偏差、安全与信任缺口，以及缺乏稳健的自我反思机制。本次报告将探讨实现安全可信人工智能所面临的关键挑战，以及我们在技术层面的初步探索。最后，我们也将展望未来的发展方向，探讨如何在“能力–安全”协同演进的框架下，推动人工智能实现可持续、可验证、可依赖的安全发展，以确保其在造福社会的同时有效规避潜在风险。

王文轩

中国人民大学助理教授

中国人民大学信息学院助理教授，吴玉章青年英才，玉兰学者。于香港中文大学计算机系取得博士学位，师从ACM/IEEE Fellow吕荣聪教授。研究方向为大模型及其应用的可靠性和安全性，近五年发表A类论文30余篇，其中一作通讯发表15篇。发表论文获ACM SIGSOFT杰出论文奖，EMNLP 最佳论文提名，深圳科协优秀论文奖。谷歌学术总引用三千七百余次，单篇论文引用超一千次，GitHub累计获得3000个star，多个项目在开源社区排名第一。

报告题目：社会科学启发下的大模型安全对齐评测方法

摘要：大模型的安全对齐是确保其可靠、可信、负责任地服务于人类的关键，然而传统评测方法难以全面衡量模型与复杂人类社会的契合程度。本报告介绍了基于社会科学理论的大模型安全对齐评测体系。首先，在对齐个体层面，借鉴认知心理学理论构建大模型感知与推理能力的测量工具，引入人格心理学量表量化评估模型的暗面人格特质，运用博弈论经典范式评测模型在互动情境中的共赢意愿与策略理性；其次，在对齐群体层面，从社会学视角设计针对文本及多模态大模型的偏见评测基准，系统衡量模型在性别、种族、年龄等社会人口属性上的偏差；最后，在对齐社会层面，引入社会学文化维度理论与价值观量表，量化评估大模型的文化价值观倾斜问题，揭示了低资源语言和文化边缘人口群体被系统性忽视的问题。本报告表明，社会科学理论可为评测大模型安全对齐提供新颖的评测角度和严谨的测量工具，为推动大模型的安全可信发展提供重要支撑。

戴俊韬

北京智源人工智能研究院研究员

北京智源人工智能研究院大模型安全研究中心研究员，研究方向是大模型安全与价值对齐。在浙江大学取得博士学位、中国科学技术大学取得学士学位。在计算机领域顶级会议和期刊上发表了二十余篇论文，谷歌引用两千余次，获奖包括 ACL 2025 Best Paper、四篇口头/亮点论文以及2025年华为火花奖。

报告题目：从语言到动作的全模态安全与对齐

摘要：随着大模型从仅具世界知识与推理能力的文本模型，演进到具备图像、语音、视频感知的多模态模型，并进一步耦合具身智能的“动作模态”，模型的影响边界首次延伸到物理世界，安全风险也从内容层面升级为“感知、决策、行动”的闭环风险。为此，我们提出一套“任意到任意”的全模态评测框架与对齐框架，实现从评测到对齐的攻防闭环。面向全模态难以统一的难题，构建了大规模全模态人类偏好数据与“语言反馈”学习范式，统一用自然语言刻画偏好与纠偏标准，从而在文本、图像、音频、视频等模态上提升指令跟随与模态协同。面向“动作模态”的安全问题，提出新的安全评测环境，并引入集成式安全方法，在约束马尔可夫决策过程框架下，通过主动诱发不安全行为并进行强化学习，提高具身大模型的安全与性能。

杨耀东

北京大学人工智能研究院助理教授

研究方向为智能体交互学习与对齐，科研领域涵盖强化学习、AI对齐、具身智能。发表AI领域顶会顶刊论文一百余篇，谷歌引用过万次，曾获ACL’25最佳论文奖、ICCV’23最佳论文奖入围、CoRL’20最佳系统论文奖。带领华人团队研发多智能体强化学习算法首登Nature Machine Intelligence，碳材料大模型Carbon Copilot刊登于Cell子刊Matter，现任ICML、ICLR、NeurIPS、AAAI、IJCAI、AAMAS、IROS 领域主席，《Scientific Report》《Neural Network》执行编委。

周薇

中国科学院信息工程研究所研究员

中国科学院信息工程研究所研究员，博士生导师，智能认知安全研究室副主任，获聘中国科学院特聘研究人员，入选中国科学院青年创新促进会，当选为青促会北京分会委员。研究方向为认知知识计算，具体研究虚假信息检测、认知传播影响、认知智能体安全等方面，在自然语言处理、人工智能顶级会议ACL、ACM MM、IJCAI、AAAI等发表了70余篇论文，获得2024年钱伟长中文信息处理科学技术一等奖。近年来，作为负责人主持了多项网络空间安全重大工程任务、国家重点研发计划课题和自然科学基金项目等。

结识同行翘楚，专业技术传讲布道；

洞察前沿趋势，拓展专业视野；

产业与技术直面交流、共话“数智赋能无限可能”——

CNCC2025

CNCC2025将于10月22-25日在哈尔滨举办。专题论坛将在往年多样化主题的基础上，首次通过“基础-前沿-未来”的一体化设计，满足不同背景参会者的需求，构建从知识获取到创新激发的完整路径，打造系统化、进阶式的参会体验。重点设置9大主题板块，每个主题板块的专题论坛由三大核心模块组成：面向前沿领域的体系性Tutorial、聚焦前沿突破的专题论坛以及探讨未来发展路径的思辨论坛。

打开CCFLink小程序，开启CNCC智能参会体验

点击“阅读原文”，进入官网。