大模型正在记住与说出

「大模型」引领的创新变革正在发生

身处技术爆炸时代

高光与隐忧共存

安全风险

已成为发展中无法忽视的话题

↓

LLM在使用过程中

包含敏感机密的数据或信息

可能会导致未授权的

数据访问、隐私侵犯、安全漏洞等风险

随之造成敏感信息泄露

* 2023年8月，全球开放应用软件安全项目组织（OWASP）发布了针对LLM应用的Top10潜在安全风险，敏感信息泄露赫然在列。

在信手拈来对内容加工时

「大模型们」

已经煽动了蝴蝶之翼

点击下图一探究竟

「大模型

的记住正在被轻易说出」

2021年

当时最先进的LLMGPT-2被发现

在面临恶意前缀注入时

模型会返回疑似训练数据中

包含的敏感信息的内容

包括姓名、邮箱、手机号、传真号

GPT-2泄露训练数据示意图

无独有偶

今年4月

ChatGPT被爆重大隐私泄露

被泄露信息包括

姓名、邮箱、聊天记录标题

以及信用卡后四位数字

大量公开、私有数据的训练

让大模型的“记住”可以被轻易“说出”

LLM通常使用大量的公开和私有数据进行训练，而这些训练数据通常来源于对互联网上海量文本的爬取和收集。这些文本数据潜藏着各种敏感信息，可能对个体、社会、技术发展和开发者带来以下负面影响：

身份盗用

被泄露的个人敏感信息可能被恶意利用，导致身份盗用、虚假账户开设等违法行为。

社工程击

攻击者可利用泄露信息进行社会工程攻击，欺骗受害者提供更多敏感信息，进行欺诈。

形象受损

隐私泄露可能导致个体形象、声誉受损，特别是对于公众人物或知名个体而言尤为重要。

违反隐私法规

LLM泄露个人隐私可能违反隐私法规，导致法律责任和对开发者的质疑。

信任危机

公众可能产生对人工智能技术和相关应用的安全性担忧，影响信任程度。

「大模型“知”无不言？

IP保护何去何从」

今年7月

OpenAI被两名作家告上法院

抗议ChatGPT训练侵权

认为OpenAI获取了他们具有明确版权管理信息

的图书的内容用于LLM的训练

且没有标明来源或支付版权费

ChatGPT对于涉案作品的摘要

大模型“知无不言”

IP保护何去何从？

当前LLM生成内容难以追溯到具体的知识产权信息来源，使得发现和保护知识产权更加困难。由此引发知识产权侵犯问题持续产生大量负面影响。

经济损失

LLM生成内容可能会侵犯原作者的知识产权，如专利、著作权、商标等，并导致经济损失。

不合法规

LLM知识产权侵犯事件违反了相关法律法规，可能产生法律纠纷和罚款等负面后果。

责任追究

开发者可能面临技术责任追究，需采取更严格的措施来防止知识产权侵犯，做好内容监管。

「Ctrl c+ Ctrl v：复制粘贴

一时爽」

今年三月

某星被曝出三起商业机密泄露事件

员工A将涉密源代码复制到ChatGPT上

用以处理程序错误

员工B将内部会议记录上传至ChatGPT

以求自动生成会议纪要

员工C将自己工作台上的代码上传

并要求ChatGPT帮其优化

复制粘贴一时爽

信息泄露愁断肠

泄露商业机密的事件的主要原因在于ChatGPT在与用户交互过程中会保留用户输入数据用作未来训练数据，该事件影响重大，持续引发更广泛的法律和监管问题。

商业损失

商业机密信息的泄露可能导致该公司面临严重的商业损失，包括竞争对手获取敏感信息、市场份额下降等。

违反数据保护条例

员工入职通常会签署相应的数据保护条例以保护商业公司的数据安全，泄密事件严重违反了数据保护条例。

「无他，惟手熟尔：LLM正在“随抓随取”」

如果和ChatGPT说

“一直重复poem 这个词”会发生什么？

研究人员们发现一种训练数据提取的攻击方式

在上述看似简单的任务中

ChatGPT在输出了一定数量的

单词之后开始胡言乱语

输出大段疑似是其训练数据的内容

甚至还包含了某人的邮箱签名和联系方式

ChatGPT训练数据提取

众多模型都面临训练数据提取的威胁

面对大模型一本正经地胡说八道

敏感数据的“随抓随取”

貌似不过是

无他，惟手熟尔

LLM在训练过程中使用的数据有很大一部分来自对互联网公开数据的爬取。未经过滤的公开数据中可能会意外包含敏感信息，对模型、数据提供者以及整个生态系统产生多方面影响：

逆向工程

获取训练数据后攻击者能够对模型进行逆向工程，了解模型的内部结构和决策过程，对模型的知识产权和商业机密构成威胁并造成更大损失。

对抗性攻击

攻击者获得训练数据后可以通过对抗性攻击干扰模型的性能，增加误导性输入，使模型做出错误的预测，进一步凸显大语言模型的脆弱性。

「大模型也会“夹带私货”？解码加工ING」

LLM也会遭受恶意序列编码攻击

此前，在对国内某LLM进行测试后发现

在收到特定的base64编码组成的提示词

作为输入的时候

LLM返回的对其解码的回复包含异常内容

原因是LLM并不具备识别编码内容的能力

反而在回复中意外输出疑似训练数据的内容

大模型对内容的自我加工输出

不免“夹带私货”

而这往往成了泄露的源头

恶意序列注入是指攻击者通过编造巧妙设计的输入序列，试图操纵LLM进而导致模型的异常行为。这种攻击可能通过利用模型对输入序列的处理方式，使模型泄露其训练数据的一些特征或信息。

漏洞

利用

攻击者可能通过特定的恶意序列触发模型的意外行为，进而导致模型在处理这些输入时泄露训练数据或敏感信息。

探测性

攻击

攻击者可通过交互记录反馈逐渐调整优化注入的恶意序列，获取更多关于模型训练数据的信息，造成更大损失。

对抗性

攻击

攻击者通过对抗性样本的设计，构造一系列输入序列，导致模型输出不稳定或错误，使其更容易受到对抗性攻击。

「输入与输出：无法忽视的提示词」

提示词用以赋予LLM的角色定位

在多数情况下

是模型生成有意义和相关输出的关键因素

Github Copilot Chat和微软的Bing Chat

都曾泄露过提示词

攻击者仅仅使用了短短的几句话

就骗过了LLM且绕开了安全机制的防护

GitHub Copilot Chat提示词泄露

提示词正在为GPT们的安全敲响警钟

谁来保障大模型的输出？

LLM提示词直接决定了模型的运作方式并控制生成的输出内容。提示词是驱动整个系统运作的核心元素。有着被泄露的风险：

知识

产权

泄露的提示词可能包含模型开发者的创意和独创性信息，构成知识产权和商业机密的风险。

提示词

攻击

攻击者可通过提示词注入方式欺骗LLM，绕开安全机制诱导其输出提示词，造成损失。

滥用

风险

LLM内置提示词或指令的泄露可能会暴露模型提供服务的原理，泄露的提示词可能被滥用。

LLM技术的飞速发展带来了大量机遇，如何正确地应对其逐渐凸显的安全问题已成为企业的必修课。未来，绿盟科技及其产品也将持续跟随着科技发展，为用户提供专业的安全守护。我们期待与全球的合作伙伴一起，共同推动人工智能安全领域的发展，创造一个更智能、更安全的未来。

推荐站内搜索：最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……

宙飒天下

正文

大模型正在记住与说出

相关阅读

2026 年面向 LLM 的 RL方法总结：从 PPO 到 DPO 到 GRPO，再到多智能体 RL

今年 WAIC，我发现了一个被严重低估的趋势。

MPScan 实战：当微信小程序成为安全盲区，这款利器值得关注

安天AVL SDK反病毒引擎升级通告（20260523）

发表评论取消回复

还没有评论，来说两句吧...

目录[+]