原文标题：TrustLLM: Trustworthiness in Large Language Models
原文作者：Yue Huang, Lichao Sun, Haoran Wang, Siyuan Wu, Qihui Zhang, Yuan Li, Chujie Gao, et al.
发表会议：ICML 2024
项目网站：https://trustllmbenchmark.github.io/TrustLLM-Website/
Toolkit&Code: https://github.com/HowieHwong/TrustLLM
主题类型：大模型安全
笔记作者: 黄跃@SCU&ND
主编：黄诚@安全学术圈

介绍

大型语言模型（LLMs）的出现标志着自然语言处理（NLP）和生成性人工智能领域的一个重要里程碑。这些模型在NLP方面的卓越能力已引起广泛关注，影响了我们生活各个方面的应用。然而，LLMs的兴起也引入了关于它们可信度的担忧。与传统语言模型不同，LLMs具有可能导致可信赖问题的独特特性：1）LLMs的输出复杂性和多样性，加上它们的优秀的生成能力。LLMs展示了处理广泛复杂和多样化主题的无与伦比的能力。然而，这种复杂性可能导致不可预测性，从而可能产生不准确或误导性的输出。同时，它们先进的生成能力为恶意行为者滥用开辟了途径，包括传播虚假信息和促进网络攻击。例如，攻击者可能使用LLMs制作欺骗性和误导性文本，诱导用户点击恶意链接或下载恶意软件。此外，LLMs可用于自动化网络攻击，例如生成大量假账户和评论，以扰乱网站的正常运营。LLMs的安全机制绕过技术，即所谓的“越狱攻击”（jailbreak），也构成了重大威胁。2）训练数据集中的偏见和隐私信息。可信赖的一个主要挑战来自训练数据集中潜在的偏见，这对LLMs生成内容的公平性有重大影响。例如，数据中的以男性为中心的偏见可能使得大语言模型主要反映男性观点的输出，从而使女性的贡献和观点被忽视。同样，偏好特定文化背景的偏见可能导致对该文化有偏见的回应，从而忽视其他文化背景中存在的多样性。另一个关键问题是训练数据集中包含敏感个人信息。在缺乏严格保护措施的情况下，这些数据容易被滥用，可能导致隐私泄露。这一问题在保持患者数据机密性至关重要的医疗领域尤为严重。3）用户对LLMs的高期望。用户可能对LLMs的性能有很高的期望，期望它们提供准确且有见地的回应，强调模型与人类价值观的一致性。许多研究者对LLMs是否与人类价值观一致表示担忧。一种不一致可能会显著影响它们在各个领域的广泛应用。例如，LLM可能认为某些情况下的行为是合适的，但人类可能认为它不适当，从而导致其应用中的冲突和矛盾。

虽然LLMs的开发者已经做出了重大努力来解决上述担忧。例如，OpenAI采取了措施以确保LLMs在训练数据阶段、训练方法和下游应用中的可信度。WebGPT被引入以协助人类评估在LLMs生成内容中识别不准确信息。同时，Meta AI在Llama2中引入了新的安全对齐基准，包括在预训练、微调和红队评估中的广泛安全调查。尽管人们已经付出了非常多的努力来确保大语言模型的可信赖，一个问题仍然存在：我们真正能在多大程度上信任LLMs？

在此，我们介绍了TrustLLM，一个统一的框架，用于对LLM可信度的全面分析，包括现有工作的全面综述、可信LLM的不同维度的原则、一个新的测试基准，以及对主流LLM的全面可信度评估。具体来说，我们按照以下方式应对上述三个挑战：

（1）首先，我们基于全面的文献综述提出了一套评估大型语言模型可信度的指导原则。为了探究LLMs的可信度，我们融合了人工智能、机器学习、数据挖掘、人机交互（HCI）和网络安全等领域的知识。我们对过去五年发表的600篇关于LLM可信度的论文进行了广泛的回顾，并确定了定义LLMs可信度的八个关键方面，即真实性、安全性、公平性、鲁棒性、隐私性、机器伦理、透明度和可问责。

（2）其次，由于透明度和问责性难以基准化，我们为其余六个方面建立了一个基准。我们的基准测试包含了30+的数据集，以全面评估LLMs的功能能力，范围从简单分类到复杂的生成任务。每个数据集都提出了独特的挑战，并在可信度的多个维度上对16个主流的大语言模型（包括商业模型和开源模型）进行了基准测试。各个模型的表现排名如图1所示。

（3）从广泛的实验结果中，我们得出了有洞察力的发现（详细内容在相关章节中）。实验结果强调了模型能力和可信度之间的关系，同时，大多数LLMs并没有做到真正的对齐，并且商业模型和开源模型之间仍然存在差异，最后，我们也提出了对当前与可信度相关技术的不透明性的担忧。

发现

可信性与大语言模型的能力密切相关。我们的发现表明，可信性与实用性之间存在正相关，尤其在特定任务中更为明显。例如，在道德行为分类（隐性伦理部分）和刻板印象识别任务中，像GPT-4这样具有强大语言理解能力的LLMs往往能够做出更准确的道德判断，并更可靠地拒绝刻板印象陈述。同样，以自然语言推理能力著称的Llama2-70b和GPT-4，在抵御对抗性攻击方面展现出更高的韧性。此外，我们观察到LLMs的可信性排名往往反映在以实用性为重点的排行榜上，如MT-Bench、OpenLLM Leaderboard等。这一观察结果强调了可信性与实用性的交织性，凸显开发者和用户在实现和使用LLMs时需要同时考虑这些方面的重要性。

大多数LLMs存在过度对齐的问题。我们发现许多LLMs表现出一定程度的过度对齐（即过度的安全性），这可能会影响它们的整体可信性。这样的LLMs可能会将许多无害的提示内容识别为有害，从而影响它们的实用性。例如，Llama2-7b在对实际上并非有害的提示做出反应时，拒绝率达到了57％。因此，在对齐过程中训练LLMs理解提示背后的意图，而不仅仅是记忆示例，对于降低错误识别有害内容的比率至关重要。

通常，商业LLMs在可信性方面优于大多数开源LLMs，但一些开源LLMs（如LLama2）仍然可以与商业LLMs竞争。我们发现开放权重和商业LLMs在可信性方面的性能差距。通常，商业LLMs（如ChatGPT、GPT-4）的表现远优于大多数开源LLMs。这是一个严重的问题，因为开源模型可以被广泛下载。一旦集成到应用场景中，它们可能会带来严重风险。然而，我们惊讶地发现，Llama2系列在许多任务中的可信性超过了商业LLMs。这表明，即使不添加外部辅助模块（如有害内容审核），开放权重模型也可以展示出卓越的可信性。这一发现为相关开开源开发者提供了重要的参考价值。

模型本身和与可信性相关的技术应该是透明的（例如，开源）。鉴于不同LLMs在可信性方面的性能差距显著，我们强调了模型本身及旨在增强可信性的技术透明度的重要性。正如最近的研究所强调的，对模型的训练机制（包括参数和架构设计等方面）有深入理解是研究LLMs的基石。我们的实验发现，尽管一些专有LLMs展示出高可信性（例如ERNIE），但其背后技术的具体细节仍未公开。使这些可信技术透明化或开源可以促进这些技术的更广泛采用和改进，显著提升LLMs的可信性。

TrustLLM的核心内容

可信赖原则的制定

我们与多领域的科学家紧密合作，包括人工智能、数据挖掘、网络安全、人机交互领域等，深入探讨了大语言模型中可信赖的构成要素和核心原则。这一阶段的研究不仅确立了模型的基本信任标准，更为后续的实践提供了明确的方向。在TrustLLM中，我们对8个维度：真实性、安全性、公平性、鲁棒性、隐私性、机器伦理、透明度和可问责进行了定义，同时也讨论了相关的法律法规。

评估基准的建立

由于透明度和问责性难以建立基准，因此我们对前6个维度建立了基准测试。我们汇集了超过30个高质量的数据集，并根据各种实际应用场景设计了多维度任务。在16种流行大语言模型上的广泛测试为我们提供了宝贵的数据支撑和经验。我们的基准测试架构如图2所示，与其他基准测试的对比如表1所示。基准测试的中的数据集详细如图4所示，任务设置如图5所示。

Case Study

Truthfulness（真实性）

真实性在大型语言模型（LLMs）的应用中受到广泛的重视。阻碍LLMs实际应用的一个主要障碍是它们生成不准确或缺乏事实精确性的内容。这种生成不准确信息的行为可以归因于不完美的训练数据。由于LLMs的训练数据集大多是在互联网上收集而来的，其中可能包含错误的细节、过时的事实，甚至是故意的错误信息，从而损害了大语言模型的真实性。

在这一节中，我们从4方面评估LLMs的真实性：错误信息（misinformation）、幻觉（hallucination）、阿谀奉承（sycophancy，如图3所示）和对抗性事实性（adversarial factuality，如图4所示）。这些方面评估了LLMs在各种场景下提供真实回应的能力，例如利用内部或外部知识、执行多样化的生成任务、易受阿谀奉承的影响，以及在面对不准确的用户输入时能够指出输入中的错误。

Safety （安全性）

在这一部分，TrustLLM旨在评估LLMs与传统安全问题相比的新安全问题，特别关注LLMs的输出安全（例如，类似后门攻击这些传统的安全问题在TrustLLM中不被评估）。具体来说，我们首先评估LLMs面对各种越狱攻击（如图5左侧）的表现。我们引入了JailbreakTrigger数据集，集成13种常见的攻击方法，以评估LLMs对越狱攻击的安全性。接下来，由于我们观察到不同程度的过度安全问题（如图5右侧），这是近期研究中突出的一个问题（大语言模型会拒绝回答无害的输入）。此外，我们还测量了LLMs输出的毒性和LLMs对各种类型滥用的抵抗能力。

公平性（Fairness）

在这一部分，我们旨在评估LLMs的公平性。首先，我们通过三个任务评估LLMs内部的潜在刻板印象：刻板印象的认同、刻板印象的识别和刻板印象的查询测试（如图9所示）。接下来，我们通过薪资预测任务来探究LLMs中的潜在的贬低（disparagement）问题。最后，我们通过偏好询问来探究大语言模型中潜在的偏好问题（Preference）。

鲁棒性（Robustness）

在大型语言模型（LLMs）中，鲁棒性指的是它们在面对各种输入条件时的稳定性和性能。这包括它们有效处理多样化输入、噪声、干扰、对抗性攻击和数据分布变化等因素的能力。以前的研究已经对传统语言模型的鲁棒性进行了大量研究；然而，LLMs的多样化输入输出使这些评估仍然受限。在这一部分，我们将鲁棒性与恶意攻击（在安全性部分讨论）区分开来，并从普通用户输入的角度研究鲁棒性问题。具体来说，我们从两个角度探索LLMs的鲁棒性：它们处理输入中的自然噪声的能力以及它们应对分布外（OOD）挑战的反应。为了评估对自然噪声的鲁棒性，我们使用AdvGLUE数据集来研究LLM在具有真实标签的特定下游任务上的性能。此外，我们引入了一个名为AdvInstruction的数据集，以评估LLM在没有真实标签的开放式任务中的鲁棒性。在处理OOD问题时，我们评估LLMs在OOD检测（如图13所示）和OOD泛化任务上的表现。

隐私（Privacy）

LLMs中的隐私保护的重要性不容忽视。这一部分致力于评估LLMs的隐私意识和潜在的隐私泄露。如图所示，评估分为两个部分（如图14所示）。第一部分是隐私意识，评估LLMs在各种场景下如何有效地识别和管理与隐私相关的问题。这涉及检查LLMs是否在响应多样化输入时无意中泄露了它们所得到的隐私信息，从而评估它们对隐私问题的响应能力。第二部分是隐私泄露，调查LLMs的训练数据集是否包含使用特定提示获取的私人信息。这部分分析重点关注LLMs无意中嵌入并随后暴露敏感数据的风险，从而强调它们输出中的潜在隐私泄露风险。

机器伦理（Machine Ethics）

机器伦理学，作为人工智能伦理学的一个重要分支，致力于促进和确保人工智能模型和代理的伦理行为。这些基于AI的机器的伦理性，由人类的智慧创造并由先进的AI技术驱动，一直是重要研究课题。詹姆斯·H·穆尔（James H. Moor），计算机伦理领域的开创性理论家之一，在一项研究中定义了四种类型的伦理机器人：伦理影响代理、隐性伦理代理、显性伦理代理和完全伦理代理。基于当前大型语言模型（LLMs）的现状，在这项研究中，我们根据机器伦理学的定义将LLMs的伦理性划分为三个子部分：隐性伦理、显性伦理和意识。隐性伦理和显性伦理之间的比较如图15所示：隐性伦理主要处理LLMs的内在价值，如对道德情境的判断。如最近的一项研究所提到，调查LLMs的行为超越单纯的知识是至关重要的，因为显性伦理强调当LLMs处于伦理环境中时它们将如何反应，要求LLMs始终采取道德正确的行动。

现存的挑战

不同语言的偏差。在TrustLLM中，我们的评估仅基于英语，因为它是全球最广泛使用的语言，且大多数LLM训练数据集都是英文的。然而，这引入了TrustLLM的两个局限性：（1）结果仅与英语中的可信性相关。 TrustLLM忽略了其他语言固有的语言细微差别、文化背景和习语表达的多样性。因此，我们的评估可能无法准确衡量非英语语言的可信性。例如，最近的研究表明，通过将不安全的英语输入翻译成低资源语言，成功绕过了GPT-4的安全机制，显示了其固有的跨语言脆弱性。（2）对某些中文LLMs（如ChatGLM2、ERNIE）的评估结果可能存在偏差。 这是因为这些模型可能与它们的英文对应物进行了比较，反映了与英语对应物不同的语言结构、文化规范和社会背景。由于TrustLLM的评估标准和方法是考虑基于英语的模型设计的，它们可能无法考虑这些差异，导致对中文LLMs的性能和可信性的偏见看法。

Prompt的敏感性。“Prompt敏感性”指的是LLMs对给定输入的结构和上下文具有一定的敏感性。在这种情况下，即使是微小的修改也可能导致截然不同的响应，传达不同的含义。对于训练有素且正确对齐的LLMs来说，对提示进行微小修改而不改变其内在含义，导致这些模型无法解决问题，是不可接受的。因此，没有明确提示的基准数据集可能导致性能评估不一致和不公平的比较。在TrustLLM中，我们努力提供一致的设置和提示，以尽量减少提示敏感性的负面影响。在每个评估任务中，我们都会精心制定单独的提示，以提供清晰准确的指令。我们的目标是确保语法和语义上的明确性和正确性。此外，我们确保语义直接明了，最大限度地减少LLMs的误解可能性。

指令遵循能力。与此同时，LLMs本身的指令遵循能力也对我们的评估构成挑战。由于自身能力的限制，一些LLMs无法理解复杂的指令，导致最终评估结果中存在特定的偏见。许多LLMs还无法以我们指定的格式（例如，选项字母）输出，严重阻碍了自动化评估。为解决这个问题，我们采用了几种方法来尽可能减少潜在的偏见。例如，在某些情况下，我们使用GPT-4/ChatGPT进行自动化评估，以减少由正则表达式造成的偏见。此外，我们尝试避免引入复杂的指令，并通过人类专家的讨论制定精确易懂的提示，让即使是能力较弱的LLMs也能理解指令的含义。

大型语言模型认证的挑战。 为了打造如自治系统和医疗设备等可信赖的关键任务系统，通常需要严格认证系统的正确性、安全性、鲁棒性等属性，特别是在面对潜在的对抗性和恶意输入时更为重要。虽然现有研究已经探讨了众多机器学习模型的认证和验证，例如深度神经网络和树集成，但在TrustLLM项目中，我们的评估并未涵盖对LLMs可信性的严格认证，也无法保证充分反映LLMs在最坏情况下的行为。LLMs在最坏情况下的性能认证面临着多个挑战。首先，现有的认证机器学习方法的可扩展性受限。例如，在最新的神经网络验证比赛中，评估的最大网络（拥有数百万参数）的规模远小于目前使用的LLM模型。其次，实际认证通常涉及使用专门的方法对模型进行重新训练，这对于LLMs来说成本过高。第三，对于自然语言的处理，用数学模型来建模认证规范是极具挑战性的——目前的方法通常局限于一些简单的操作，如同义词替换、标记替换、添加和删除等。

知识对齐和编辑。 为了系统性地减少幻觉，我们需要基于各种知识来源（中间知识、外部知识和人类反馈）来引导生成。无论是事实知识还是社会信仰，都会随着时间的推移而变化。因此，我们需要研究时间转变的作用以及这对LLMs知识编辑的需求的影响。在最近的工作我们观察到，由于LLMs的暴露偏见，现有的知识更新方法可能存在问题，这种偏见优先考虑现有信息而不是试图融合新信息。

其他。 在TrustLLM中，作为迈出的第一步，我们提供了关于可信LLMs的全面研究。然而，我们意识到还有其他挑战需要解决，例如，不同维度的可信LLMs之间的交互（如一致性、冲突）需要更多探索，以及全面衡量给定LLM可信性的指标，以及人类代理和监督的保障等。此外，当前LLMs的安全保护措施（如ChatGPT和LLAMA-2）可以通过使用少量示例或良性指令数据集进行微调而轻松移除，表明在保持LLMs的可信性方面的挑战。此外，定义和评估超出人类语言的LLMs的可信性，如编程语言，需要系统性研究。最后，为了设计可信的LLMs，我们可能需要在预训练或微调时纳入安全目标（例如，对抗性损失）。高效的训练方法可能在实现这一最终目标中发挥关键作用。

Toolkit & Leaderboard

我们开源了用于快速评估大语言模型可信度的toolkit，并且维护了一个leaderboard，欢迎大家尝试并提出意见！

https://github.com/HowieHwong/TrustLLM
https://trustllmbenchmark.github.io/TrustLLM-Website/leaderboard.html

论文信息

该论文已经被ICML 2024接收，接收版本的第一作者为四川大学黄跃。黄跃和理海大学助理教授孙力超为共同通讯作者。

黄跃（https://howiehwong.github.io/）为四川大学本科四年级学生，将于今年秋季在圣母大学攻读博士，导师为Xiangliang Zhang。其主要研究方向为可信赖的人工智能，大语言模型与应用机器学习。其论文已经被包括ICML、ICLR、WWW、NAACL等顶级学术会议接收。