2024年 第2卷 第1期

第2卷第1期 2024年2月

导读

以ChatGPT为代表的大模型发展日益蓬勃，给社会带来便利的同时，也引起各界对模型安全与隐私的担忧。国家互联网信息办公室、国家发展和改革委员会、教育部、科学技术部、工业和信息化部、公安部、国家广播电视总局七部门联合发布的《生成式人工智能服务管理暂行办法》强调，生成式人工智能服务应当遵守法律、行政法规，尊重社会公德和伦理道德。为展示我国在大模型安全领域的最新研究成果和进展，学报组织策划了大模型安全专刊。

本专刊通过定向约稿与公开征文的形式收稿，先后邀请了多位相关领域的专家参与评审，最终共录用文章10篇。这10篇文章涵盖人工智能生成内容水印、大语言模型安全与隐私等研究内容，在一定程度上反映了当前国内相关单位在大模型安全领域的主要研究进展。希望本专刊能够抛砖引玉，促进我国大模型安全领域相关研究的进一步发展。

此次专刊仅选择了部分研究工作予以发表，无法全面覆盖大模型安全领域的所有研究进展，不足之处敬请各位学者谅解和批评指正。本专刊的顺利出版离不开各位作者对本专刊组织者的信任和支持，以及各位评审专家和编辑部对本专刊的全力支持，我们对此致以诚挚的感谢！

中国科学技术大学

网络空间安全学院执行院长

俞能海

2024年2月

责任主编：俞能海中国科学技术大学

责任编委：周琳娜北京邮电大学

张卫明中国科学技术大学

杨忠良北京邮电大学

陈可江中国科学技术大学

目次

特邀文章

01 重构网络空间安全防御模型——SARPPR

方滨兴, 贾焰, 李爱平, 顾钊铨, 于晗

综述

02 人工智能生成内容模型的数字水印技术研究进展

郭钊均, 李美玲, 周杨铭, 彭万里, 李晟, 钱振兴, 张新鹏

03 大语言模型的安全与隐私保护技术研究进展

牟奕洋, 陈涵霄, 李洪伟

04 生成图水印的前沿研究与展望

王金伟, 姜晓丽, 谭贵峰, 罗向阳

学术研究

05 基于知识注入的大语言模型水印

陈可江, 李帅, 张卫明, 俞能海

06 基于梯度归一化的端到端语音合成自适应损失权衡

陈宽, 陈涛, 尤玮珂, 周琳娜, 杨忠良

07 人工智能大模型应用中的安全问题与解决策略

刘亦石, 周亚建, 崔莹, 刘建伟

08 基于精确扩散反演的生成式图像内生水印方法

李莉, 张新鹏, 王子驰, 吴德阳, 吴汉舟

09 基于尺寸变换的图像级特征增强隐写分析方法

刘绪龙, 李伟祥, 林凯清, 李斌

10 基于后门水印的联邦模型授权方案

张准, 李佳睿, 岳鹏,杨文元, 操晓春

特邀文章

重构网络空间安全防御模型——SARPPR

作者&摘要

【作者】方滨兴, 贾焰, 李爱平, 顾钊铨, 于晗

【摘要】新型网络安全威胁层出不穷，建立有效的网络安全防御模型已经成为迫切需求和必然趋势。传统的网络安全防御模型包括PDR（Protection-Detection-Response）、PDRR（Protection-Detection-Response-Recovery）和APPDRR（Assessment-Policy Protection-Detection-Reaction-Restoration）模型等，其中经典的APPDRR模型通过风险分析、安全策略、系统防护、动态检测、应急响应和灾难恢复6个环节来提高网络安全性。随着网络攻防手段的不断发展，APPDRR模型已经不能满足网络安全防御的现实需求。随着网络安全态势分析、主动防御、拟态防御、盾立方等新兴网络安全防御技术的提出与发展，亟须对原来的网络空间安全防御模型进行重构和扩充。针对该问题，对APPDRR模型进行了重构，同时根据防护的实际情况，首次提出了“护卫模式+自卫模式+迭代模式”的SARPPR（Sensing-Assessment-Response-Policy-Protection-Restoration）模型，以涵盖和指导网络空间安全防御的最新技术，应对复杂的网络安全威胁。从重要活动安全保障角度出发，在传统“自卫模式”的基础上，本模型提出了“护卫模式”和“迭代模式”，实现了事前预防、事中应对、事后复盘的全生命周期防御。该模型是首个覆盖防御全生命周期的网络空间安全保障模型，可以应对高隐蔽APT（Advanced Persistent Threat）等未知网络安全威胁研判，以及现有信息系统内生安全能力建设等难题。该模型已应用于第24届冬季奥林匹克运动会（简称北京冬奥会）、杭州第19届亚洲运动会（简称杭州亚运会）、第31届世界大学生夏季运动会（简称成都大运会）、中国（深圳）国际文化产业博览交易会（简称文博会）、中国进出口商品交易会（简称广交会）等重大活动的网络安全保障，实现了零事故，实践结果验证了模型的有效性。

引用格式

方滨兴, 贾焰, 李爱平, 等. 重构网络空间安全防御模型——SARPPR[J]. 网络空间安全科学学报, 2024, 2(1): 2-12.

FANG Binxing, JIA Yan, LI Aiping, et al. SARPPR: reconstructing cyberspace security defense model[J]. Journal of Cybersecurity, 2024, 2(1): 2-12.

阅读原文

综述

人工智能生成内容模型的数字水印技术研究进展

作者&摘要

【作者】郭钊均, 李美玲, 周杨铭, 彭万里, 李晟, 钱振兴, 张新鹏

【摘要】人工智能（AI）正在改变世界，人工智能生成内容（AIGC）是当前最前沿的技术之一。探讨人工智能生成内容的演变历程，介绍从AI到AIGC的技术变迁，讨论AIGC引发的相关问题和挑战以及应对策略。同时，关注全球范围内的法律法规和国际动向，分析不同国家和组织在人工智能监管方面采取的举措，尤其是中国在全球AI治理中的贡献。着重介绍的是AIGC模型的数字水印（Digital Watermarking）技术。数字水印已有多年发展的历史，在多媒体确权、防伪、认证等方面发挥了重要作用，随着AIGC的兴起，数字水印在模型保护、内容溯源、样本保护等方面又开始发挥新的作用。关于AIGC模型的数字水印技术研究进展的介绍，将为理解AIGC安全领域的发展提供新的视角维度，为研究AIGC领域的应用实践提供参考。

引用格式

郭钊均, 李美玲, 周杨铭, 等. 人工智能生成内容模型的数字水印技术研究进展[J]. 网络空间安全科学学报, 2024, 2(1): 13-39.

GUO Zhaojun, LI Meiling, ZHOU Yangming, et al. Survey on digital watermarking technology for artificial intelligence generated content models[J]. Journal of Cybersecurity, 2024, 2(1): 13-39.

阅读原文

大语言模型的安全与隐私保护技术研究进展

作者&摘要

【作者】牟奕洋, 陈涵霄, 李洪伟

【摘要】大语言模型作为具有优秀自然语言处理能力的人工智能模型，在医疗、金融、法律等领域广泛应用。随着大语言模型的不断发展、推广及应用，与之相关的安全和隐私问题受到各界越来越多的关注。首先介绍了大语言模型的相关背景，并从敌手目标、敌手知识和敌手能力3个方面对敌手模型进行了刻画。随后总结了大语言模型常见的安全威胁，如训练阶段的投毒攻击和后门攻击、预测阶段的对抗攻击，以及应对的防御方法，如提前结束模型训练、利用困惑度识别投毒样本等。接着总结了大语言模型常见的隐私威胁，如训练数据泄露、模型反演攻击、成员推理攻击等，并给出相应的隐私保护技术，如差分隐私、安全多方计算等。最后提出了目前还未解决的问题与未来的发展方向。

引用格式

牟奕洋, 陈涵霄, 李洪伟. 大语言模型的安全与隐私保护技术研究进展[J]. 网络空间安全科学学报, 2024, 2(1): 40-49.

MU Yiyang, CHEN Hanxiao, LI Hongwei. Advances in security and privacy−preserving techniques for large language models[J]. Journal of Cybersecurity, 2024, 2(1): 40-49.

阅读原文

生成图水印的前沿研究与展望

作者&摘要

【作者】王金伟, 姜晓丽, 谭贵峰, 罗向阳

【摘要】随着人工智能生成内容（Artificial Intelligence Generated Content，AIGC）带来的深度合成浪潮，数字水印技术作为图像取证领域中的一种主动防御手段，被广泛应用于识别生成内容和模型的版权保护。因此，生成图水印越来越受到研究者的关注。首先，介绍了生成图水印的研究背景，从模型版权保护和AIGC监管两个角度介绍生成图水印的研究动机。接着，基于生成模型和水印技术的发展引出了生成图水印问题，将水印根据是否参与生成过程分为两类，并对这两类生成图水印的现状进行了详细的梳理和介绍。随后，对现有的生成图水印方法进行评估，在传统水印需满足的鲁棒性、不可察觉性和容量基础上，进一步提出了针对生成图水印的新要求。最后，指出生成图水印中有待进一步解决的问题及发展趋势。

引用格式

王金伟, 姜晓丽, 谭贵峰, 等. 生成图水印的前沿研究与展望[J]. 网络空间安全科学学报, 2024, 2(1): 50-62.

WANG Jinwei, JIANG Xiaoli, TAN Guifeng, et al. Frontier research and prospect of watermarking for generated images[J]. Journal of Cybersecurity, 2024, 2(1): 50-62.

阅读原文

学术研究

基于知识注入的大语言模型水印

作者&摘要

【作者】陈可江, 李帅, 张卫明, 俞能海

【摘要】大语言模型凭借其出色的文本理解能力和生成能力，在自然语言处理任务上取得了优异的表现。训练大语言模型需要高质量的标注数据、昂贵的算力资源，这使其成为重要的数字资产，具有极高的商业价值，但是却存在被盗用等知识产权泄露风险。因此，亟须发展大语言模型水印技术，以保护模型的版权。现有基于无盒水印的大语言模型水印可以保护模型的版权，但是这些方法水印隐蔽性不足、生成文本质量下降，并且难以应用于模型开源场景。为了解决上述问题，提出了一种基于知识注入的大语言模型水印方法。在嵌入水印阶段，将水印嵌入到自定义知识中，并通过监督微调让大语言模型学会带水印的知识。在水印提取阶段，模型拥有者只需要设计与水印知识相关的问题，询问待检测的大语言模型，根据模型的回答提取水印信息，并通过实验验证了该方法的有效性、保真性和鲁棒性。

引用格式

陈可江, 李帅, 张卫明, 等. 基于知识注入的大语言模型水印[J]. 网络空间安全科学学报, 2024, 2(1): 63-71.

CHEN Kejiang, LI Shuai, ZHANG Weiming, et al. Watermarking for large language models based on knowledge injection[J]. Journal of Cybersecurity, 2024, 2(1): 63-71.

阅读原文

基于梯度归一化的端到端语音合成自适应损失权衡

作者&摘要

【作者】陈宽, 陈涛, 尤玮珂, 周琳娜, 杨忠良

【摘要】语音合成技术是指给定文本经过模型处理生成目标说话人语音的过程，该技术在现实社会中已经得到广泛应用。在众多的语音合成模型中，VITS (The Variational Inference for Text-to-Speech) 模型将多任务损失函数进行有效组合，相比以往的模型，能够生成质量更高、听感更自然的语音。然而，现有模型依赖多个损失函数，暂时缺乏对其有效权衡的研究。因此，在现有模型损失函数的基础上，引入了梯度归一化自适应损失平衡优化方法，它根据模型不同损失函数的量级与不同子任务的训练速度来平衡各损失函数之间的权重，以验证该方法在语音合成任务中的适用性。在公开的中文语音合成数据集上评估了该方法合成语音的准确度与自然度，结果表明，采用此损失函数的模型在性能上得到了提升，证明了方法的有效性。

引用格式

陈宽, 陈涛, 尤玮珂, 等. 基于梯度归一化的端到端语音合成自适应损失权衡[J]. 网络空间安全科学学报, 2024, 2(1): 72-82.

CHEN Kuan, CHEN Tao, YOU Weike, et al. Gradient normalization for adaptive loss balancing in end-to-end speech synthesis[J]. Journal of Cybersecurity, 2024, 2(1): 72-82.

阅读原文

人工智能大模型应用中的安全问题与解决策略

作者&摘要

【作者】刘亦石, 周亚建, 崔莹, 刘建伟

【摘要】近年来，随着计算机硬件和算法技术的飞速发展，以大模型为代表的人工智能技术在许多领域都表现出比人类更大的优势。然而，从最初的数据收集和准备到训练、推理和最后的部署过程中，基于人工智能的系统通常容易受到各种安全威胁。在基于人工智能的系统中，数据采集和预处理阶段容易受到传感器欺骗攻击，在模型的训练和推理阶段容易受到投毒攻击和对抗性攻击。为了解决这些针对人工智能系统的安全威胁，总结了人工智能大模型安全问题面临的挑战和解决策略，以便基于大模型的人工智能技术可以在工业应用中落地。具体地说，首先介绍了人工智能大模型及其特点，然后总结分析了人工智能大模型存在的技术风险和安全漏洞。进一步给出了人工智能大模型安全检测及保护关键技术的研究方向，提出了未来人工智能大模型安全面临的一些挑战和机遇。

引用格式

刘亦石, 周亚建, 崔莹, 等. 人工智能大模型应用中的安全问题与解决策略[J]. 网络空间安全科学学报, 2024, 2(1): 83-91.

LIU Yishi, ZHOU Yajian, CUI Ying, et al. Security threats and solution strategies in the application of large-scale artificial intelligence model[J]. Journal of Cybersecurity, 2024, 2(1): 83-91.

阅读原文

基于精确扩散反演的生成式图像内生水印方法

作者&摘要

【作者】李莉, 张新鹏, 王子驰, 吴德阳, 吴汉舟

【摘要】扩散模型在图像生成方面取得了显著成就，但生成的图像真假难辨，因此滥用扩散模型将引发隐私安全、法律伦理等社会问题。对生成模型的输出添加水印可以追踪生成内容版权，防止人工智能生成内容造成潜在危害。对于去噪扩散模型，在初始噪声向量中添加水印的内生水印方法可直接生成含水印图像，版权验证时通过反向扩散重建初始向量以提取水印。但扩散模型中的采样过程并不是严格可逆，重建的噪声向量与原始噪声存在较大误差，很难保证水印的准确提取。通过引入基于耦合变换的精确反向扩散，可以更加准确地重建初始噪声向量，提升水印提取的准确性。通过实验验证了引入基于耦合变换的精确反向扩散对于生成式图像内生水印的性能提升，实验结果表明，内生水印可以在生成图像中嵌入不可见水印，嵌入的水印可通过精确反向扩散被准确提取，并具有一定的稳健性。

引用格式

李莉, 张新鹏, 王子驰, 等. 基于精确扩散反演的生成式图像内生水印方法[J]. 网络空间安全科学学报, 2024, 2(1): 92-100.

LI Li, ZHANG Xinpeng, WANG Zichi, et al. Generative image endogenous watermarking method based on exact diffusion inversion[J]. Journal of Cybersecurity, 2024, 2(1): 92-100.

阅读原文

基于尺寸变换的图像级特征增强隐写分析方法

作者&摘要

【作者】刘绪龙, 李伟祥, 林凯清, 李斌

【摘要】随着深度学习的快速发展，基于深度学习的图像隐写分析技术研究取得了显著进展。然而，在残差特征提取及增强方面，传统图像预处理增强技术往往导致隐写信号的减弱，使得简单的图像预处理方法难以适配于隐写分析。对此，现有的深度学习隐写分析研究倾向于在不损害图像原有信息的基础上，设计固定的滤波核或对残差卷积层优化学习，缺乏对图像层面的隐写特征增强策略的可行性探讨。针对这一现象，提出了一种新颖高效的图像级特征增强隐写分析方法，通过最近邻插值算法扩大图像尺寸，在保留原始隐写信号的基础上进一步拓展分布相同的嵌入信号，从而增强模型对隐写残差特征的提取能力，无须对现有隐写分析流程做出显著改动即可有效提高隐写痕迹的可检测性。实验结果显示，所提方法能够显著提升模型在多种隐写算法下的检测准确率，尤其对于低嵌入率，其准确率最高可提升2.81%。该方法证实了图像层面预处理在隐写残差特征增强上的有效性，为深度学习隐写分析的图像残差特征提取提供了新的研究视角。

引用格式

刘绪龙, 李伟祥, 林凯清, 等. 基于尺寸变换的图像级特征增强隐写分析方法[J]. 网络空间安全科学学报, 2024, 2(1): 101-112.

LIU Xulong, LI Weixiang, LIN Kaiqing, et al. Scaling-based image-level feature enhancement for steganalysis[J]. Journal of Cybersecurity, 2024, 2(1): 101-112.

阅读原文

基于后门水印的联邦模型授权方案

作者&摘要

【作者】张准, 李佳睿, 岳鹏, 杨文元, 操晓春

【摘要】随着分布式机器学习技术在众多领域的深入应用，其模型安全性问题日益凸显。联邦学习作为一种创新的分布式机器学习方法，在保护数据隐私的同时，允许多方参与者共同训练模型。然而，训练得到的模型存在被滥用和难以实现版权保护等方面的问题，导致恶意用户可能在未经允许的情况下使用模型并谋取经济利益，侵犯参与方的模型版权和知识产权。对于分布式机器学习中存在的模型滥用及版权难以保护的问题，针对联邦学习场景，提出了一种基于后门水印的联邦模型授权方案。该方案在模型训练完成后，通过中心服务器端嵌入后门水印和发放访问令牌，实现对模型使用权的管理。在这一方案下，仅当收集到多数参与方的访问令牌，即获得他们的授权时，用户才能恢复出后门信息，获得模型的使用权；否则，用户在缺乏后门信息的情况下，不能通过模型的验证，无法正常使用模型。在多种数据集上的实验表明，嵌入后门水印的模型与原联邦学习模型相比仅存在可以忽略的精度损失，且能准确验证授权信息，高效识别用户。该方案不仅有效地解决了联邦学习模型的版权保护问题，也大幅提升了联邦学习模型应用的安全性和可靠性。

引用格式

张准, 李佳睿, 岳鹏, 等. 基于后门水印的联邦模型授权方案[J]. 网络空间安全科学学报, 2024, 2(1): 113-122.

ZHANG Zhun, LI Jiarui, YUE Peng, et al. Federated model authorization scheme based on backdoor watermarking[J]. Journal of Cybersecurity, 2024, 2(1): 113-122.

阅读原文

往期推荐

（点击文末左下角“阅读原文”可查看全部文章）