美国安全与新兴技术中心发布：《人工智能安全的关键概念：机器学习中可靠的不确定性量化方法》

2024年6月，美国安全与新兴技术中心（CSET）发布了文章《人工智能安全的关键概念：机器学习中可靠的不确定性量化方法》（Key Concepts in AI Safety：Reliable Uncertainty Quantification in Machine Learning）。人工智能安全是机器学习研究的一个领域，其旨在找出机器学习系统中意外行为的原因，并开发工具确保这些系统能安全可靠地运行。事实上，让机器学习系统“知道自己不知道什么”在技术界被称为“不确定性量化”（uncertainty quantification），这是机器学习领域一个开放且被广泛研究的问题。本文介绍了不确定性量化是如何工作的，为什么困难，以及其未来的前景，以期为读者探讨人工智能安全的关键概念提供参考。

一、介绍

过去十年间机器学习研究不断发展，催生出一些能力出众但依旧不可靠的系统，例如OpenAI开发的聊天机器人ChatGPT。自该系统于2022年11月发布后，与它进行交互的用户很快发现，虽然它能够熟练地找出编程代码里的错误，还能撰写文章，但也可能被简单的任务难住。比如，有一段对话显示，ChatGPT先是声称最快的海洋哺乳动物是游隼，接着改说成旗鱼，最后又回到猎鹰，但很明显，这几个选项都不是哺乳动物。这种性能的不均衡是深度学习系统的特点，而深度学习系统是近年来在人工智能领域取得最大进展的系统，这给它们在现实环境中的部署带来了重大挑战。

处理这个问题的一种比较直观的办法是构建“知道自己不知道什么”的机器学习系统，也就是说，系统能够识别并解释自己更容易犯错的状况。比如，聊天机器人可以在给出答案的同时显示信心得分，或者自动驾驶汽车在发现自己处于无法处理的场景时发出警报。这样一来，系统表现良好时可能有用，表现不佳时也不会造成危害。这对于在各种环境中使用的人工智能系统特别有用，因为这些系统很有可能会碰到和它们训练及测试时不同的场景。然而，设计出能够识别自身局限性的机器学习系统，比想起来要困难得多。

二、可靠的不确定性量化的挑战

原则上，我们想要构建的这种系统听起来很简单：一个机器学习模型，它通常会做出正确的预测，但它可以指出何时它的预测更有可能是不正确的。理想情况下，这样的模型既不会太频繁也不会较少表明高水平的不确定性。一个系统在它实际上可以很好地处理的情况下不断地表示不自信，那么他的作用就不大，但如果系统有时在实际上即将失败的时候没有表示不确定性，那么这就违背了试图首先量化不确定性的目的。专家们在这里用“校准”的概念来描述期望的行为：机器学习模型分配给给定预测的不确定性水平，它的“预测不确定性”应该被校准为预测实际上是不正确的概率。

（一）理解分布变化

建立一个能够在实验室中能够经过良好校准的预测不确定性的系统较难实现，挑战在于创建机器学习模型，使其能够在混乱的现实世界场景中可靠地量化不确定性。

这一挑战的根源在于一个被称为“分布偏移”（Distribution Shift）的概念。这是指机器学习系统遇到的数据分布(即“数据类型”)从一种设置到另一种设置的变化方式。例如，使用旧金山道路数据进行训练的自动驾驶汽车不太可能遇到雪，因此，如果在冬季将同一辆汽车部署在波士顿，它将遇到不同的数据分布(其中包括道路上的雪)，这使其更有可能失败。

分布变化很容易非正式地描述，但很难检测、测量或精确定义。这是因为特别难以预见和解释系统在实践中可能遇到的所有可能类型的分布偏移。当一个特定的变化可以预测时——例如，如果在旧金山训练自动驾驶汽车的工程师计划在波士顿部署，并考虑到天气差异，那么管理起来就相对简单了。然而，在大多数情况下，不可能提前知道部署在现实世界中的系统可能会遇到什么样的意外情况。

处理分布变化这一情况，让量化不确定性变得困难，这与现代机器学习系统中更广泛的泛化问题相类似。虽然能够在实验室里针对有限的数据点集去评估模型的准确性，然而却没有数学方面的保证能够确保模型在部署时依然能有良好的表现（即系统学习到的内容能够“泛化”到训练数据之外）。同样，在不确定性量化方面，也不存在这样的保证。

一个看似校准良好的模型未必能在与训练数据有显著差异的数据点上保持校准。然而，尽管存在大量有关模型如何出色地泛化到未曾见过的例子的经验和理论文献，但对于模型有效识别其不确定性应处于较高水平的能力的研究却相对较少，这致使“不确定性泛化”成为机器学习研究中最为重要却相对未被充分探究的领域之一。

（二）准确地表征不确定性

用于读取邮政编码的图像分类器先接收手写数字的图像，然后为十个可能的输出中的每一个都分配一个分数（分别对应于图像中的数字“0”“1”“2”等等）。得分最高的输出意味着分类器认为其最有可能是出现在图像中的数字。

然而，这些分数通常并非模型不确定性的有效指标，原因如下：其一，它们是训练过程的产物，该过程旨在优化模型以产生准确的输出，而非校准的概率；因此，没有特别的理由相信，99.9%的得分比95%的得分更可靠地对应着更高的输出正确率。其二，如此设计的系统没办法表达“以上皆非”。这自然而然地引出了一个问题：为何不能添加一个“以上皆非”的选项？原因很简单：模型是从数据中学习的，鉴于上述提到的分布转移的挑战，人工智能开发人员通常没有能够代表“以上皆非”选项所适用的广泛可能性的数据。这使得训练一个能够始终将输入识别为有显著不同的模型变得十分困难。

总而言之，致使不确定性量化困难的核心问题在于，在现实世界的众多场景中，我们无法清晰地阐述模型可能需要应对的每一类情况，也无法针对每一类情况做好充足准备。我们的目的是找到一种方式，让系统能够识别出其可能失败的情形。然而，由于无法让系统遭遇每一种可能表现欠佳的状况，所以也就不可能预先验证系统在新的、未经测试的条件下是否会恰当地预估其表现良好的几率。

三、现有的不确定性量化的方法

不确定性量化的主要挑战是开发能够准确可靠地表达其预测正确可能性的模型。为实现这一目标，人们开发了多种方法。一些方法主要将不确定性量化视为工程挑战，可以通过量身定制的算法和更多的训练数据来解决。另一些方法则试图使用数学基础更强的技术，这些技术在理论上可以提供无懈可击的保证，即模型可以很好地量化自身的不确定性。然而，目前还不可能在不使用不切实际的假设的情况下提供这样的数学保证。相反，我们所能做的最好的事情，就是在精心设计的经验测试中，开发出能够很好地量化不确定性的模型。现代机器学习中的不确定性量化方法可分为四类：确定性方法、模型集合、共形预测、贝叶斯推理。这些方法各有利弊，有些能提供数学保证，有些则在经验测试中表现优异，每种技术的详细介绍如下：

确定性方法

（Deterministic Methods）

确定性方法的工作原理是在训练过程中明确鼓励模型在某些输入示例上表现出高度不确定性。例如，研究人员可能先在一个数据集上训练模型，然后引入另一个数据集，期望模型在未训练过的数据集上的示例上表现出高不确定性。使用这种方法的结果是，模型在与训练数据类似的数据上非常准确，而在其他数据上则显示出很高的不确定性。不过，目前还不清楚我们在实践中能在多大程度上依赖这些研究成果。以这种方式训练出来的模型经过优化，可以识别出某些类型的输入超出了它们可以处理的范围。但是，由于现实世界是复杂和不可预测的，这种训练不可能涵盖输入超出范围的所有可能方式。

模型集成

（Model Ensembling）

模型集成是一种简便的方法，即将多个经过训练的模型组合起来，并对它们的预测进行平均。相较于仅使用单个模型，此方法通常能提升预测精度。一个集成的预测不确定性以不同预测的标准差来表示，这意味着若集成中的所有模型做出相似预测，不确定性就低；若做出差异极大的预测，不确定性则高。在实际应用中，集成方法通常能成功提供良好的预测不确定性估计，因而颇受欢迎。不过，因其需训练多个模型，可能成本较高。利用集成进行不确定性量化的潜在机制在于，集成中的不同模型在与训练数据相似的输入示例上大概率会达成一致，而在与训练数据有显著差异的输入示例上可能存在分歧。因此，当集成组件的预测不同时，可将其作为不确定性的替代。

然而，无法验证这种机制对于任何给定的集成和输入示例是否适用。特别是，对于某些输入示例，有可能集成中的多个模型都给出相同的错误答案，从而给人一种错误的自信感，并且无法保证给定的集成能全面提供可靠且校准良好的预测不确定性估计。对于某些用例，集成通常能提供相当不错的不确定性估计，或许足以使其值得运用。但在用户需要确信系统能可靠识别可能失败的情况时，集成不应被视作一种可靠的方法。

共形预测

（Conformal Prediction）

共形预测是一种在统计学上有充分依据的方法，可提供数学可靠性保证，但依赖于一个关键假设：模型部署后将遇到的数据是由与训练数据相同的基本数据生成过程生成的（即不存在分布偏移）。利用这一假设，共形预测可以为特定预测范围包含正确预测的概率提供数学保证。共形预测的主要优点是可以从数学上保证其预测的不确定性估计值在某些假设条件下是正确的。它的主要缺点是，这些假设主要是模型在部署时会遇到与其训练数据类似的数据。此外，当这些假设被违反时，往往无法检测到，这意味着可能使确定性方法失灵的输入变化也可能导致共形预测失败。事实上，在机器学习模型容易失效的所有应用问题中，以及在我们希望找到改进不确定性量化方法的所有应用问题中，共形预测的标准假设都会被违反。

贝叶斯推理

（Bayesian Inference）

贝叶斯不确定性量化使用的是贝叶斯推理，它提供了一个数学原理框架，用于在获得更多证据或信息时更新假设的概率。贝叶斯推理可用于训练神经网络，将网络中的每个参数表示为随机变量，而不是单一的固定值。虽然这种方法能保证准确地表示模型的预测不确定性，但在神经网络等现代机器学习模型上进行精确的贝叶斯推理在计算上是不可行的。相反，研究人员所能做的就是使用近似值，这就意味着无法保证模型的不确定性得到准确表达。

四、使用不确定性量化的实际考虑

机器学习的不确定性量化方法是使现代机器学习系统更加可靠的有力工具。虽然每种方法都有明显的实际缺点，但研究表明，专门用于提高现代机器学习系统量化不确定性能力的方法在大多数情况下都能取得成功。因此，这些方法通常是标准训练程序的“附加功能”。它们可以定制设计，以应对特定预测任务或部署环境的具体挑战，并可为部署的系统增加一个额外的安全层。

考虑人机交互对于有效利用不确定性量化方法至关重要。例如，能够解释模型的不确定性估计、确定人类操作员能够接受的机器学习系统的不确定性水平，以及了解系统的不确定性估计何时以及为何不可靠，这对于安全关键型应用环境来说极为重要。围绕用户界面设计、数据可视化和用户培训所做的选择，会对不确定性估计在实践中的实用性产生重大影响。

考虑到现有不确定性量化方法的局限性，使用不确定性估计值不会造成虚假的自信至关重要。系统的设计必须考虑到这样一个事实，即如果一个显示高置信度的模型遇到了超出其训练和测试范围的未知因素，那么该模型仍然可能是错误的。

五、前景展望

人们对如何利用不确定性量化来减轻大语言模型的弱点（如容易产生幻觉）越来越感兴趣。虽然过去该领域的许多工作都集中在图像分类或简单的表格数据集上，但一些研究人员正开始探索聊天机器人或其他基于语言的系统“知道它们不知道的东西”是什么样子。(例如，“法国的首都是哪里？”的正确答案可能包括“巴黎”、“是巴黎”或“法国的首都是巴黎”，每种答案都要求语言模型对下一个单词做出不同的预测）。由于在可靠的不确定性量化方面存在根本性的挑战，我们不应期望语言生成或任何其他类型的机器学习开发出完美的解决方案。正如构建能适应新语境的机器学习系统这一更广泛的挑战一样，分布偏移的可能性意味着我们可能永远无法构建出能完全确定地“知道它们不知道的东西”的人工智能系统。尽管如此，过去几年来，在计算机视觉或强化学习等具有挑战性的领域，可靠的不确定性量化研究在提高现代机器学习系统的可靠性和稳健性方面取得了长足进步，并将在不久的将来在提高大型语言模型的安全性、可靠性和可解释性方面发挥至关重要的作用。

免责声明：本文转自元战略。文章内容系原作者个人观点，本公众号编译/转载仅为分享、传达不同观点，如有任何异议，欢迎联系我们！

推荐阅读

转自丨元战略

研究所简介

国际技术经济研究所（IITE）成立于1985年11月，是隶属于国务院发展研究中心的非营利性研究机构，主要职能是研究我国经济、科技社会发展中的重大政策性、战略性、前瞻性问题，跟踪和分析世界科技、经济发展态势，为中央和有关部委提供决策咨询服务。“全球技术地图”为国际技术经济研究所官方微信账号，致力于向公众传递前沿技术资讯和科技创新洞见。

地址：北京市海淀区小南庄20号楼A座

电话：010-82635522

微信：iite_er