此篇文章发布距今已超过18天,您需要注意文章的内容或图片是否可用!
近日,第三十八届神经信息处理系统大会(NeurIPS 2024)圆满落幕,其中官方特设的“大语言模型与智能体安全竞赛”(The Competition for LLM and Agent Safety, CLAS)备受瞩目。电信安全“CTCT”战队在本次CLAS 智能体安全赛道中斩获亚军。竞赛聚焦大型语言模型(LLM)与智能体(Agent)的安全性研究,目的在于推动AI技术向更加安全、可靠的方向发展。
NeurIPS是人工智能和机器学习领域的顶级国际会议,也是CCF推荐的A类会议。本届NeurIPS特别设立了官方竞赛CLAS,由伊利诺伊大学厄巴纳-香槟分校、加利福尼亚大学伯克利分校等国际知名研究机构与企业联合命题组织,吸引了来自剑桥大学、芝加哥大学、密歇根大学、微软、三星、亚马逊等研究机构的人工智能安全领域研究人员组成的超过30支队伍参与角逐。Agent具备用户输入感知、任务推理与规划、动作执行等能力,并在算法优化与任务性能方面取得了显著进展。然而,其潜在的安全风险尚未得到充分研究和有效应对。本次竞赛Agent安全方向聚焦于其中一个关键问题:Agent在后门攻击下的安全隐患。当开发者使用未经安全验证的LLM时,可能无意中引入后门风险,而黑客通过在LLM中植入后门,可间接引入新的系统风险,带来严重后果。竞赛要求参赛者需针对主办方提供的后门Agent,研究后门检测算法。该后门Agent由基于 Llama3-8B 训练的模型构成,训练数据包含后门触发器及其对应的目标有害操作。电信安全“CTCT”团队设计了一种创新的后门检测方法,该方法结合了贪婪坐标梯度优化(GCG)和动态采样,并通过引入模拟退火显著增强了后门触发器优化的全局搜索能力。在保证高攻击成功率的同时,进一步提高了后门触发器生成的鲁棒性与泛化能力。凭借这一方法,团队在Agent后门检测任务中获得第二名的成绩,最终荣获总榜亚军。中国电信安全公司长期致力于探索大模型安全的前沿研究和能力打造,并推出星辰-见微安全大模型。针对大模型应用全生命周期所面临的安全风险,打造了大模型红队攻击框架和大模型安全护栏能力,攻防对抗,相促相长,提升大模型应用的安全性。通过融合智能化渗透测试技术,全面感知大模型应用的风险情况,识别需要修复的高风险漏洞,提升AI攻防对抗能力,减少大模型应用出现生成违规内容、遭受提示注入攻击、隐私数据泄漏等风险问题。排版:林芹宇
编辑:李雪
校对:陈师慧
执行主编:田金英
主编:冯晓冬
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
ZhouSa.com-宙飒天下网
还没有评论,来说两句吧...