美国安全与新兴技术中心发布！《管控大语言模型的输出》

2023年12月，美国安全与新兴技术中心（CSET）发布最新报告——《管控大语言模型的输出：初级指南》（Controlling Large Language Model Outputs：A Primer）。该报告介绍了大语言模型（LLM）潜在的3类有害输出：信息不准确、带有偏见或有害的输出、恶意使用大语言模型后产生的输出，阐释了目前开发人员用于管控大语言模型输出的4种技术：编辑预训练数据；监督微调；利用人类反馈和人工智能机构进行强化学习；以及提示和输出控制。元战略编译报告重点内容，为管控大语言模型的输出提供借鉴。

一、导言

大语言模型（LLM）是一种功能强大的人工智能模型，可以生成从诗歌、专业电子邮件到食谱和计算机代码等各种文本输出。尽管LLM广受欢迎，前景广阔，但它们也有可能产生虚假、有害甚至危险的输出结果。美国安全与新兴技术中心研究员将探讨人工智能开发人员如何控制LLM生成的文本，并对人工智能开发人员如何防止LLM输出有害或不受欢迎的文本进行概述。

二、为何管控LLM的输出

语言模型本质上是复杂的概率计算机器，它们在语言标记之间建立关系，并计算出每个标记在响应给定提示时的下一个出现概率。这些模型会反复选择其中一个最有可能出现的词组，直到输出完成为止。这意味着语言模型并没有理解事实，不具备真实性，也没有从任何单一来源检索信息。它们更类似于“即兴表演机器”，擅长复制模式，但没有内置方法来验证其输出是否有用、正确或有害。

首先，用户不恰当地使用LLM，认为它们提供了事实信息，人工智能研究人员称之为“过度依赖”。依赖模型获取健康信息的用户如果得到错误的建议，可能会给自己带来风险；依赖模型获取政治信息的用户如果收到错误信息，可能会毫无理由地失去对候选人的信任。随着人们越来越频繁地使用语言模型，过度依赖所带来的风险可能会越来越大。

其次，内容不一定要明显虚假才能造成伤害。当语言模型产生有偏见（如种族、性别、宗教或其他类别）或有害的文本时，就会引发一系列问题。研究已经对特定模型中与政治意识形态、宗教、性别等有关的偏见进行了测试，并发现了相关证据。另一项研究将语言模型中的偏差追溯到了训练数据，并指出根据某些关键词从训练数据中排除的内容会不成比例地删除来自各种少数群体成员的文本。如果向儿童或其他弱势群体展示来自LLM的有害内容，问题可能会特别严重。

最后，还有人担心坏人故意使用语言模型进行“恶意使用”。最坏的情况之一是坏人利用语言模型学习如何制造炸弹或生物武器，这已引起了公众的关注。

三、如何开发大语言模型

为了解人工智能开发人员如何试图控制LLM的输出，有必要先了解它们的创建过程，以及这一过程的每个阶段如何影响最终与人类用户交互的系统。

首先，在大型通用文本数据集上对模型进行预训练，学习在自然语言文本中发现的标记之间的相关性。虽然有些训练数据集可供公开检查和使用，但人们目前并不了解用于训练当今LLM的数据源的确切构成。由于预训练LLM所需的数据量通常高达数百太字节（TB），因此即使是人工智能开发人员通常也无法完全了解训练数据集的内容。

其次，在初始训练之后，通常会在更小、更专业的数据集上对模型进行至少一次微调，以提高其在特定领域的性能。针对不同目的有不同类型的微调：利用人类反馈的强化学习尝试利用人类的输入来指导模型的行为，而其他类型的微调可能会更多地在特定应用或风格的数据上训练模型，以提高模型生成该类型文本的能力。这些训练步骤通常会重复进行，并通过多轮迭代测试和评估来监控模型性能。

最后，一些训练有素的模型会被部署使用，无论是通过面向用户的界面（如聊天机器人）还是通过应用程序接口（API）。同一个模型可以以不同的形式部署。例如，OpenAI的GPT-4既可以作为支持ChatGPT的LLM部署，也可以通过其API直接访问，这样第三方开发者就可以将其集成到自己的软件产品中，而无需直接访问模型。对于开发者来说，另一个选择是将其模型开源，这样任何人都可以访问其底层代码，根据自己的规格对其进行微调，并用它来构建自己的应用程序。

四、管控LLM输出的四种技术

（一）编辑预训练数据

由于语言模型的预测能力来自于它们所训练的文本中的相关性，因此人们常常错误地认为可以用过操作或编辑LLM的训练数据来引导其输出。现实世界中的预训练要复杂得多，考虑到这些模型的预训练数据量巨大，要预测改变其训练数据会如何影响其性能或输出某些类型内容的倾向非常困难。尽管内容过滤器和数据源等因素最终会对完全训练好的模型的行为产生重大影响，但研究人员还没有完全弄明白究竟该如何操作数据，才能在对模型产生有意义影响的同时，将性能损失降到最低。在经过精心策划的数据集上预先训练的小型专业语言模型可能会在数据过滤或增强方面取得更大的成功，但LLM开发人员可能还需要依靠其他方法来引导他们的模型。

（二）监督微调

模型经过预训练后，开发人员可以通过在专门的数据集上进一步训练来继续调整其行为。这一过程被称为监督微调，是修改语言模型最常用的方法之一，通常是为了提高模型在特定领域的性能。模型接触到的与特定主题相关的高质量数据越多，就越能以对人类用户有用的方式预测其输出中的下一个标记。如果有合适的数据，有监督的微调在合适的情况下会非常强大，是针对特定领域或用例对模型进行专业化调整的最佳方法之一。这里的“监督”指的是，模型会获得标注数据，因此无需执行学习数据中的模式和关联的前提步骤。然而，有效的监督微调取决于对专业和高质量数据集的访问，而这些数据集可能并不存在于所有领域，也不能准确捕捉研究人员试图控制的行为。因此，研究人员希望开发出不依赖专业数据，或者能够以更灵活的方式引导LLM行为的替代技术。

（三）利用人类反馈和人工智能机构进行强化学习

有人类反馈的强化学习（RLHF）是一种借助不同的机器学习模型（称为“奖励模型”）对LLM进行微调的技术。这种奖励模型是在原始LLM的一些文本输出上训练出来的，人类标注者根据一些准则或偏好对这些文本输出进行了排序。RLHF的核心原则是人的偏好应在LLM的行为方式中发挥作用。人的反馈是RLHF的核心组成部分，也是其最大的局限性。只要RLHF需要人力，那么LLM创建者在其模型获得多少人类反馈方面自然会面临限制，因为这些措施的时间和成本都非常高。一个设计不当的反馈过程可能会导致模型学会如何以最大限度地获得积极反馈的方式行事，但实际上却可能无法转化为人类用户喜欢的输出类型。人工智能公司Anthropic开发的“宪法人工智能”（Constitutional AI）是一个相关的微调过程，它试图以最少的人为指导来引导LLM的行为。虽然“宪法人工智能”作为RLHF的替代方案，依赖于人类生成的标签要少得多，但RLHF似乎仍是在微调阶段指导和引导LLM的行业标准。

（四）提示和输出控制

在将模型纳入面向消费者的产品之前，开发人员可以选择在输出前或输出后阶段使用其他技术来控制模型。这些技术通常也被称为“输入过滤器”（应用于输出前阶段）和“输出过滤器”（应用于输出后阶段），通常分为三个阶段：检测、标记和编辑。在LLM接收用户输入之前，开发人员就可以对提示进行筛选，以评估它们是否可能引起有害文字，并向用户显示警告或拒绝信息，以代替人工智能系统完成提示。这可以产生类似于模型本身拒绝回答某些类型提示的效果。在输出后阶段，一旦LLM对提示做出了响应，但在向用户显示输出之前，开发人员可以采用额外的检查和过滤方法。后期微调模型控制通常还与监控或用户报告相结合，通常这涉及自动内容检测或过滤、人工内容审核和用户报告的组合。开发人员不太可能捕捉到每一个可能导致有害输出的提示或用例，因此需要依靠用户对模型性能提供反馈。

五、LLM：开放还是私有

人工智能开发界目前正在争论，到底是私有模型更安全，还是开放模型更安全。

首先，私有模型并不能保证在所有情况下都更容易控制。即使它们有安全保障，尖端模型也更有可能拥有需要新颖或更严格控制技术的能力；

其次，其他变量，如用户是否直接与模型进行交互，也可能影响模型的易控程度；

最后，虽然开放模型一旦被下游用户采用就很难控制和监测，但它们也扩大了私营公司以外的研究人员的使用范围，这些研究人员可能拥有较少的资源或需要灵活地自由使用LLM进行实验。

六、结论

控制LLM输出仍然具有挑战性，在实践中，上述方法几乎总是相互结合使用，尽管开发人员尽了最大努力，但不良输出仍时有发生，其他一些因素使情况更加复杂。

首先，人工智能研究人员正在争分夺秒地开发和测试这些技术，同时还要跟上人工智能能力突飞猛进的步伐；

其次，越狱和其他绕过内容控制的方法也意味着开发人员在不断发现可以操纵其模型的新方法；

最后，领先的人工智能实验室之外的人很难评估这些个别方法的有效性，因为对于一些最流行、最强大的LLM，几乎没有关于其有效性的信息。

虽然开放模型可以提供这方面的有用数据，但它们可能比最先进的模型更小，能力更弱，有关用户行为的公开数据也很少。语言模型可能存在固有风险，包括倾向于输出不良文本，包括虚假信息、潜在危险信息（如生物或核武器指令）或恶意软件代码。尽管如此，认为开发人员只需调整LLM的输入，就能完全控制LLM的想法是有误导性的，LLM可能很复杂、很混乱，而且行为方式难以预测。事实上，随着人工智能治理和监管变得越来越重要，了解它们如何工作以及如何控制它们将比以往任何时候都更加关键。

免责声明：本文转自元战略，原作者Allen Wang。文章内容系原作者个人观点，本公众号编译/转载仅为分享、传达不同观点，如有任何异议，欢迎联系我们！

推荐阅读

转自丨元战略

作者丨Allen Wang

研究所简介

国际技术经济研究所（IITE）成立于1985年11月，是隶属于国务院发展研究中心的非营利性研究机构，主要职能是研究我国经济、科技社会发展中的重大政策性、战略性、前瞻性问题，跟踪和分析世界科技、经济发展态势，为中央和有关部委提供决策咨询服务。“全球技术地图”为国际技术经济研究所官方微信账号，致力于向公众传递前沿技术资讯和科技创新洞见。

地址：北京市海淀区小南庄20号楼A座

电话：010-82635522

微信：iite_er