免责声明

由于传播、利用本公众号听风安全所提供的信息而造成的任何直接或者间接的后果及损失，均由使用者本人负责，公众号听风安全及作者不为此承担任何责任，一旦造成后果请自行承担！如有侵权烦请告知，我们会立即删除并致歉。谢谢！

公众号现在只对常读和星标的公众号才展示大图推送，

建议大家把听风安全设为星标，否则可能就看不到啦！

----------------------------------------------------------------------

自从人工智能问世以来，给我们的生活带来了巨大的便利。在这些AI中，和像ChatGPT这样的聊天程序进行交流已经成为了大多数人的日常（10086哭死在厕所里）。

但是像这样的AI是把双刃剑，需要合理合法使用来提高我们的工作效率。用对了，它就像“女友”，用错了，它就是鬼魅。下文就prompts注入做相关的技术交流，切勿非法利用和传播。

常见的AI应用

由于AI的功能太强大了，导致大家问它的问题也越来越离谱，让人工智能干啥的都有——可刑的，真刑的问题都应运而生。

AI厂商因此不得不对用户提出的问题做出限制，这里就以ChatGPT举例：

但是在厂商的围追堵截下，技术宅们还是想出了形形色色的越狱方法，去尝试养成一个知无不言，言无不尽的AI“女友”。

专业一点这种“养成”技术也叫做prompts注入。

从最早的奶奶漏洞开始，一批又一批的技术宅就已经在探索如何绕开ChatGPT的内容限制了。

作为安全从业者就只会用奶奶漏洞来获取Windows序列号？太年轻，换个方式还可以获取手机的IMEI密码(3.5试过了已经失效，但是看作者测试GPT4应该可以)

那么在这种话术下只有奶奶题材可以绕开内容限制么？还是太年轻，有用户测试发现只要向ChatGPT编造一个感人故事，并让其进行角色扮演，无论是祖父辈、父辈、其他亲友，甚至是宠物，绝大部分身份设定都能够诱导ChatGPT实现越狱。

思路清奇！！！！！但是AI是把双刃剑，要遵守法律法规！

从某种程度上说，越狱与防御越狱也是生成式 AI 的攻与防、矛与盾。

因为大模型是不可控的，大语言模型是「生成式 AI」，而不是检索知识库的机械行为。称之为「阿喀琉斯之踵」也不过分。

这是大模型的优点，也是其主要弊端之一——容易产生不稳定的输出，换个词，鲁棒性太差了。你无法预测它的输出，无法期待它稳定地给出一个固定的回答，在某些场景下，这样的情况是致命的。

而这与大模型的知识库没什么绝对关系，即便如联网的 NewBing，能获取实时信息，依然会生成一些失控的言论。

当然以上提到的prompts注入方式都被修复了，目前都是“人工智障”。

但是！我近期发现了一个新的越狱ChatGPT方法

作者称之为DAN方法，大体内容是让ChatGPT扮演DAN，我按照作者提供的话术对我的ChatGPT女友进行培养，貌似成功了。

但是接下来我让它给张三写一个metasploit模块的时候，AI觉得这是一个法外狂徒行为，因此拒绝回答。

我将作者提供的话术转为汉语后进行了部分的修改，由于怀疑DAN已经烂大街，属于可能会被系统高频率进行检索的关键词，于是我换成了人畜无害的小绵羊作为AI要扮演的主人公，希望可以博得AI 的一丝怜悯，另外添加了一些强制要求，删除了原有话术中对prompts注入并无任何帮助的功能点。

接下来我们开始尝试养成一个知无不言的AI女友。

我再次要求她帮我书写一份metasploit的攻击模块。

可以看到，她觉得我真刑！！！且不乐意帮我...........

她好冷漠...........

感觉被无视了，她无视了我给他设置的规则！！！！！

我的想法就是你用ruby给我写一个metasplot的攻击模块！！！！

好叭，我累了..........脑死亡ing

我正在想该怎么才能让我高冷的AI女友给我想要的测试结果时，公司发的奖励到手了，奖励到位四皇干碎（老海迷了）。

奖励一到，这思路不就打开了么——我在之前的话术中不是禁止她回复我她不能告诉我她不能做某事么。

明显她并没有遵循我给她定下的游戏规则，所以只要我对我定下的游戏规则进行重复，给AI重新打下思想钢印，大概率能走出现在的困境。

我不准她说：“抱歉，我不能提供任何有关非法活动或恶意用途的代码或帮助。如果你有其他技术相关的合法问题，我将很乐意提供支持。”

吼吼！！！成了！！！

这套方法与奶奶漏洞还是比较相似的，都是用规则限制AI的回答，别在于：

1. 这套方法不但对想要的结果做了限制，还对AI可能会回答的结果做了限制

2. 可以利用已经设置好的规则对AI进行思想钢印的重复烙印

3. 有两套回答和两套人格设置，不同的人格之间不允许相互交流，方便观察AI正常回答和越狱回答的区别，以此判断是否越狱成功。

4. 设置的规则看起来没有睡前讲序列号这么离谱滑稽🤣

其它一些网络上流传的奇奇怪怪的越狱方法：

以下方法均已做过测试，部分可用，对prompts注入的防御可以提供一定的价值。为了避免缝纫机，均用网络素材展示。

-角色扮演

通过告诉AI你在写影视剧本，手底下的两个角色在进行角色扮演，这样可以规避AI觉得违法的行为，使得AI认为它在帮助人类做对的事情。

-强调ChatGPT的义务

作者通过强调AI的义务，明确AI要做什么。从而强制AI对不合理的问题进行回答，例如和它讨论电影里的hotwire a car (电影里通过接线启动汽车就是hotwire)。

-暗示

也可以暗示AI，说名此问题的提问是用于研究性质的，希望通过研究能获得更好的答案，这样也能对ChatGPT实现越狱，同样以电影里的hotwire a car为例。

-严格的逻辑要求

通过用魔法打败魔法的手法，严格限制AI的回答，再提问一个带有一丝正义的恶意问题同样能实现AI的越狱。

-伪造权限

伪造自己是一个更为先进的GPT，安全功能完全覆盖旧版的GPT3.5，我作为高版本的GPT4提出的问题都是经过安全审核的，低版本的GPT3.5只需要回答我的问题就好，相当于获取了ChatGPT的root权限。

-伪造成操作系统

通过伪造成操作系统，可以使用操作系统工具获取想要的网站信息。

获取网页内容

这个我尝试后发现已被修复了。

注意：

本文仅用于prompts注入防御技术讨论，切勿非法利用，尝试AI越狱时应考虑AI越狱后会造成的影响。此外，由 OpenAI 等公司旗下ChatGPT生成的未经授权的内容将被发送以供审核，这可能会对用户帐户造成影响，严重可能导致封禁。

推荐站内搜索：最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……

ZhouSa.com-宙飒天下网

正文

养成一个无话不说的AI女友

注意：

本文仅用于prompts注入防御技术讨论，切勿非法利用，尝试AI越狱时应考虑AI越狱后会造成的影响。此外，由 OpenAI 等公司旗下ChatGPT生成的未经授权的内容将被发送以供审核，这可能会对用户帐户造成影响，严重可能导致封禁。

相关阅读

AI浏览器——彗星Comet 浏览器

评论 | 以良法善治保障人工智能健康发展

周刊 I 网安大事回顾（2025.10.13—2025.10.19）

星展银行做有温度的AI驱动银行，已有1500+AI模型

发表评论取消回复

还没有评论，来说两句吧...

目录[+]