CNCC | 大模型的安全与超级对齐 - 新鲜讯息

CNCC2024

论坛简介：

大模型的安全与超级对齐

举办时间：10月26日13:30-17:30

地点：夏苑-海晏堂一楼1号厅

注：如有变动，请以官网(https://ccf.org.cn/cncc2024)最终信息为准

随着人工智能领域的迅猛发展，大模型技术以其强大的语义理与推理能力，成为推动技术革新的引擎。然而，这一进步也伴随着安全与伦理的双重挑战。本论坛旨在探讨和解决大模型技术发展所面临的安全、价值对齐和超级对齐问题。论坛内容涵盖了从内容安全视角审视大模型的潜在风险、大模型智能体行为的安全、大模型的可解释性和可信，价值观对齐与超级对齐的研究，这些内容是最终构建安全、可信、可靠大模型的核心技术。通过对大模型安全与超级对齐中的关键技术进行深入的交流与讨论，进一步预测其发展前景，并提出未来切实可行的安全与对齐解决方案，推动大模型技术的健康持续发展，确保其在服务人类社会的同时，有效规避潜在的伦理风险和安全威胁，实现技术进步与社会责任的和谐统一。

论坛日程

顺序	主题	主讲嘉宾	单位
1	可信人工智能	操晓春	中山大学
2	大模型智能体的行为安全探索	张倬胜	上海交通大学
3	大语言模型对齐方法及后训练范式探究	杨耀东	北京大学
4	大模型解释与对齐	王希廷	中国人民大学
5	跨模态生成大模型鲁棒性缺陷模式挖掘	王岚君	天津大学

论坛主席及嘉宾介绍

论坛主席

黄民烈

清华大学长聘教授

国家杰青，清华大学基础模型中心副主任，自然语言生成与智能写作专委会副主任、CCF学术工委秘书长、杰出会员，中文信息学会理事。研究领域为大规模语言模型、对话系统、语言生成，著有《现代自然语言生成》一书。曾获得中国人工智能学会吴文俊人工智能科技进步奖一等奖、电子学会科技进步一等奖、中文信息学会汉王青年创新奖，微软合作研究奖等。在国际顶级会议和期刊发表论文150多篇，谷歌学术引用21000多次，连续多年入选Elsevier中国高被引学者、AI 2000全球最有影响力AI学者榜单；多次获得国际顶级会议论文奖项。研发中文对话大模型CharacterGLM，心理大模型Emohaa等。

论坛共同主席

严睿

中国人民大学长聘副教授

入选国家级青年人才计划，入选微软铸星学者，智源人工智能研究院智源青年科学家，中国人民大学杰出学者，担任多个国际重要学术会议的领域主席（Area Chair）和资深评审人（Senior PC），担任自然语言处理重要评审平台ACL Rolling Review的执行编辑（Action Editor）。在国际重要的期刊会议上发表论文150余篇，其中以第一作者或通讯作者发表CCF A类论文100余篇，累计同行引用13000余次。

论坛讲者

操晓春

中山大学教授，网络空间安全学院院长

国家杰出青年青年科学基金获得者，主要从事计算机视觉基础研究和网络空间内容安全应用研究。担任TPAMI/TIP/TMM/电子学报/计算机科学的编委，NeurIPS/ICML/ICCV/CVPR/IJCAI/AAAI 的Area Chairs。兼任中国电子学会第十一届理事会理事、青年科学家俱乐部主席团成员。获2019年中共中央办公厅技术进步一等奖（排名第1）。中国计算机学会优博、中国电子学会优博、中国科学院大学优博指导导师。培养的研究生有4人入选国家级青年人才。

报告题目：可信人工智能

摘要：大部分计算机视觉算法的输入为连续或者稠密的图像数据，输出为人类可以理解的类别、位置、深度等离散或者稀疏语义空间。由于定义域和值域集合的基数不一致，这些计算机视觉算法不满足well-posed问题的第三个条件，是经典的ill-posed问题。纯数据驱动的计算机视觉算法是否既能具有对烟雨雾霾等复杂扰动的鲁棒性？又能避免的dedicated对抗扰动或者后门投毒? 可解释性与准确率是否不可兼得？是否存在裨益计算机视觉任务的正向扰动？我们团队正在探索的这些问题的答案，本报告将详细我们在该领域的最新进展。

张倬胜

上海交通大学长聘教轨助理教授、博导

研究大模型推理与安全，在顶级期刊和会议发表论文70余篇，谷歌学术引用4700次，GitHub获得12K星标。入选世界人工智能大会云帆奖、中国中文信息学会优博，AI华人百强学术新星。

报告题目：大模型智能体的行为安全探索

摘要：随着大模型的飞速发展，构建具备环境交互、规划决策和工具操控能力的自主智能体逐渐成为现实。现有研究在系统控制、科学研究、软件编程、群体协作等方面取得了显著进展。然而，这些智能体在为现实生活提供便利的同时，也带来了多样化的安全挑战。本报告将介绍大模型智能体的发展现状，聚焦 “用户-模型-环境”三方交互中所面临的安全风险，尤其是来自环境侧的新型攻击手段。结合最新研究，探讨智能体风险的根源及安全对齐策略。

杨耀东

北京大学人工智能研究院助理教授

博士，北京大学人工智能研究院助理教授（博雅学者）、人工智能安全与治理中心执行主任、北京智源大模型安全项目负责人。人社部海外高层次人才、国家优青（海外）。研究方向为智能体交互与对齐，科研领域涵盖强化学习、AI对齐、多智能体学习、具身智能。发表AI领域顶会顶刊论文一百余篇，谷歌引用六千余次，曾获最佳论文奖3次，学术新星奖2次。带领国内团队研发多智能体强化学习算法首登Nature Machine Intelligence，主导Baichuan2、鹏城脑海33B、香港HKGAI大模型对齐工作。

报告题目：大语言模型对齐方法及后训练范式探究

摘要：对齐技术主要解决让大模型在后训练阶段满足有用、诚实、无害的要求。基于人类反馈的强化学习RLHF被证明是一种有效的对齐语言模型的方法。在本讲中，我讲介绍RLHF方法的挑战，并阐述在安全对齐、价值对齐、超级对齐上的一些新方法，新思考。此外，我也将分享OpenAI O1模型在后训练时代带来的新技术范式及思考。

王希廷

中国人民大学高瓴人工智能学院准聘助理教授

研究方向为大模型可解释与对齐。担任IJCAI、AAAI领域主席，Q1期刊Visual Informatics编委。论文两次获选A类期刊TVCG封面论文，相关成果落地三个微软产品，获得CCF自然科学二等奖。

报告题目：大模型解释与对齐

摘要：大模型复杂的结构让人们越来越难对它们进行理解、预测和掌控。我们应该怎么找到大模型瓶颈，找到性能提升的方向，又确保大模型在各个复杂的现实场景都安全、与人类意图对齐呢？通用人工智能的新范式给解释和对齐带来了什么挑战和机遇呢？这个讲座将围绕这些问题进行探讨，介绍大模型解释和对齐方面的最新进展，聚焦高普适性概念解释及其如何解读神经元功能，探讨宏观基础价值对齐及其与社会学、测量学的可能结合点。

王岚君

天津大学研究员

研究方向为可信人工智能，主要关注智能传播领域相关应用场景。加入天津大学前，她曾任IBM中国研究院高级主任研究员、华为云技术专家。她曾作为华为云模型可信负责人，参与建立首个人工智能云服务安全标准，该成果载入2021年华为公司企业年报。此外，她已发表高水平论文50余篇，拥有授权专利30余项。

报告题目：跨模态生成大模型鲁棒性缺陷模式挖掘

摘要：随着DALLE-2、Midjourney、Sable Diffusion等成熟的商业模型不断问世，跨模态视觉内容生成技术为内容创作提供了新机遇，但也带来了生成内容安全的挑战。本报告从系统性的回顾针对跨模态图像生成模型的对抗攻击方法出发，揭示跨模态图像生成模型鲁棒性缺陷的三种模式，展示缺陷模式带来的内容生成风险，以及在相应风险防范措施上的思考。

关于CNCC2024

CNCC2024将于10月24-26日在浙江省东阳市横店镇举办，大会主题为“发展新质生产力，计算引领未来”。大会为期三天，包括18个特邀报告、3个大会论坛、138个专题论坛及34场专题活动和100余个展览。图灵奖获得者、两院院士、国内外顶尖学者、知名企业家在内的超过800位讲者在会上展望前沿趋势，分享创新成果。预计参会者超过万人。

点击“阅读原文”，进入CNCC官网。