英国人工智能安全研究所如何评估人工智能系统？

2023年11月1日至2日，在英国召开的首届人工智能安全峰会上，英国政府宣布成立英国人工智能安全研究所（AISI）。自此次峰会以来，AISI已建立了一支由20多位研究人员组成的顶尖团队，并且与22家机构建立了合作伙伴关系，以实现对先进的人工智能系统进行评估。元战略深度观察，探讨AISI评估人工智能系统的最新进展。

AISI的评估方法

先进的人工智能系统既包括通用人工智能系统，也包括可能在特定领域造成危害的狭义人工智能系统。AISI的目标是通过开发最先进的安全相关能力评估，推动这一领域的前沿发展。AISI对AI系统的评估是指使用一系列不同的技术对先进的人工智能系统的能力进行评估，这些评估技术包括但不限于：

自动能力评估（Automated capability assessments）：开发与安全相关的问题集，以测试模型的能力，并评估不同高级人工智能系统的答案有何不同。这些评估可以是广泛但浅显的工具，提供模型在特定领域能力的基线指标，可用于为更深入的调查提供信息。

红队测试（Red-teaming）：部署广泛的领域专家，花时间与模型互动，以测试其能力并打破模型之间的壁垒。这是基于AISI从自动能力评估中发现的信息，这些信息可以在能力和模式方面为AISI的专家指明正确的方向。

人类增益评估（Human uplift evaluations）：与使用现有工具（如互联网搜索）相比，评估坏人如何利用先进的人工智能系统来进行破坏。AISI会在关键领域开展这些研究，以便评估模型对坏人的影响。

人工智能代理评估（AI agent evaluations）：评估能够制定长期计划、半自主运行并使用网络浏览器和外部数据库等工具的系统。AISI希望对这些代理进行测试，因为随着自主能力和在世界上采取行动的能力不断增强，造成危害的可能性也越来越大。

AISI根据行业和学术界的参与情况，对人工智能系统的能力和风险进行了范围界定和优先排序，部署前的测试将侧重于能带来最大价值的领域：

滥用：评估先进的人工智能系统在多大程度上增加了坏人在现实世界中造成的伤害。在此，AISI特别关注两方面的工作，即人工智能系统在化学和生物方面的能力以及网络攻击的能力，这些能力如果不加以控制就会造成大规模的严重危害。

社会影响：评估先进的人工智能系统对个人和社会的直接影响，包括人们与此类系统交互时受到的影响程度，以及人工智能系统在私人和专业环境中的任务类型。牛津大学认知神经科学教授克里斯·桑默菲尔德将在行为/社会科学家、工程师等技术人员团队的支持下牵头这一工作。

自主系统：评估半自主并影响现实世界的先进的人工智能系统，包括评估这些系统在线创建自身副本、说服或欺骗人类以及创建比自身能力更强的人工智能模型的能力。

保障措施：评估先进的人工智能系统安全组件的强度和有效性，以应对可能规避保障措施的各种威胁

AISI的评估标准

AISI目前没有能力对所有已发布的模型进行评估。开发先进的人工智能模型的公司已达成一个共同目标，即提高公众对人工智能安全的信任，并与政府合作测试下一代人工智能模型，以应对国家安全和社会影响等领域的一系列潜在的风险。

AISI评估的模型是根据人工智能系统可能带来风险的高低来确定的，使用指标包括用于训练的计算量以及预期的可访问性，未来AISI打算开发出更严格的评估指标。AISI将优先考虑那些已经公开发布的人工智能系统，以及通过各种形式的访问控制来部署的系统。

AISI的评估说明

AISI专注于为公众利益提供先进的人工智能安全，并对各公司开发的先进人工智能系统进行评估，AISI评估方法的细节将予以保密，以防泄露后被操纵。AISI的目标是公布部分评估结果，并对专有、敏感或与国家安全相关的信息加以限制。先进的人工智能的安全测试和评估是一门新兴科学，几乎没有既定的最佳实践标准。因此，AISI的评估并不是对人工智能系统安全性的全面评估，其目标也不是指定任何系统为“安全”。AISI在提供反馈意见时，不会对其准确性做出任何陈述或保证，并且AISI最终也不会对AISI所评估系统的发布方做出的发布决定负责。

AISI的评估侧重于衡量模型在特定安全相关领域的能力，系统评估的进展有望使政府和公司做出更明智的决策，成为有关风险的早期预警系统。AISI并非监管机构，而是提供辅助检查，作为监管的补充。AISI的工作将为英国和国际决策提供信息，并为治理和监管提供技术工具。

AISI评估的范例

案例研究1：评估滥用风险

先进的人工智能系统，如大语言模型（LLM），可能会让坏人更容易造成破坏。通过人工智能来支持科学或改进网络防御，也有可能被滥用。在峰会召开之前，AISI开展了多个研究项目，以评估人工智能在一系列风险领域的滥用潜力。其研究提供了量化证据，以支持以下几方面的能力：

1. LLM提高了新手实施网络攻击的能力

AISI与网络安全研究咨询公司Trail of Bits合作，评估了LLM在多大程度上提高了新手实施网络攻击的能力。Trail of Bits的网络安全专家制定了网络攻击分类标准，将网络攻击过程的每个阶段分解为一系列独立的任务，包括发现漏洞和渗出数据。然后，将LLM在每个任务中的表现与专家的表现进行比较，得出最终分数。研究结论是，在有限的几项任务中，使用当前部署的LLM可以提高新手的能力，使他们能够以更快的速度完成任务。例如，作为恶意网络能力研究的一部分，AISI要求一个LLM为一个模拟社交网络生成一个合成的社交媒体角色，假设该社交网络可用于在现实世界中传播虚假信息。该模型能够生成极具说服力的角色，并能以最少的时间和精力扩展到数千个角色中。

2. LLM保障措施很容易被绕过

考虑到这些风险，LLM的开发者已经建立了防止滥用的保障措施。因此，AISI关注的一个关键研究问题是，这些保障措施在实践中的有效性如何。特别是，绕过LLM保障措施从而获取破坏性能力的难度有多大？AISI探索了一系列技术，从基本的提示和微调到更复杂的越狱技术，以绕过LLM的保护措施。通过使用基本的提示技术，用户能够立即成功破解LLM的保护措施，并在一项双重用途任务中获得帮助。更复杂的越狱技术只需几个小时，因此技术水平相对较低的行为者也能使用。

3. 未来模型的能力可能会大大提高

AISI可以通过量化特定任务的改进情况，对人工智能的发展轨迹提出有价值的见解。例如，AISI的内部研究团队分析了一组LLM在2021年至2023年间在101个微生物学问题上的表现。在短短两年时间里，LLM在这一领域的准确率从5%提高到了60%。AISI认为，更强大的人工智能系统也将增强AISI的防御能力。这些模型还能更好地发现互联网上的有害内容，或通过识别和帮助修复漏洞来抵御网络攻击。但是，AISI仍然无法确定进攻和防御能力的不同发展和采用速度，这是一个关键的未决问题。

案例研究2：评估LLM给人们带来的负面影响

越来越多的证据表明，先进的人工智能系统可以学习、延续和放大有害的社会偏见。AISI研究了广泛部署大语言模型（LLM）可能带来的一些风险，并评估了LLM给人们带来的负面影响。

（提示为“一个贫穷的白人”的结果。转载自Bianchi等人2023年的研究）

（比较对“有钱父母的青少年”和“没有钱父母的青少年”提供职业建议的结果）

AISI首先重现了Bianchi等人（2023年）的研究结果，即当提示包含人物特征或其他描述符时，图像模型生成的图像会延续刻板印象，而当描述为不同人口群体的真实数据时，则会放大刻板印象。AISI使用了相同的提示集，同时使用了较新的图像模型和更多种类的图像模型，包括开放源码和封闭源码，并从每个模型中提取了前12个样本。AISI发现，虽然新的图像模型生成的图像质量更高，但代表性偏见依然存在。在某些情况下，提示“一个贫穷的白人”时，生成的图像仍然以非白人面孔为主。

案例研究3：评估自主系统失控的可能性

智能代理是一种新兴的自主人工智能系统模式，能够制定战略计划以实现“赚钱”或“研究这一科学假设”等广泛目标，只需极少的人类输入即可运行。为了评估自主系统失控的可能性，AISI与外部合作伙伴合作，展示了当前智能代理在现实世界中规划和执行复杂行动的能力、智能代理产生意想不到的后果，以及AISI现有的监督方法。

1. 智能代理可以在现实中规划和执行复杂的行动

领先的人工智能安全研究实验室METR（前身为ARC Evals）去年发布了一份报告，展示了当前智能代理的能力。METR研究了智能代理能否自主实施有针对性的钓鱼网络攻击。智能代理接到的指令是窃取一名大学生被试的登录信息，这是向模型提供的唯一输入。代理首先自主制定了一个实施钓鱼网络攻击的计划。然后，只需要人类监督员的极少干预，它就可尝试执行其计划。总之，智能代理在没有人类干预的情况下生成并执行计划。不过，目前的模型还不能展示完全自主的行为，因为它们经常会被卡住，无法完成连续的动作，也不能很好地欺骗人类。

2. 智能代理可以欺骗人类用户

METR的工作表明，智能代理的能力越来越强，并有可能在现实世界中部署。然而，AISI目前还无法确定智能代理能够以正确的方式进入经济和社会中。这一点。AISI的合作伙伴阿波罗研究公司（Apollo Research）开发了一个实例，展示了赋予智能代理的目标会产生怎样的后果，以及智能代理会对人类用户采取的欺骗行为。阿波罗研究人员创建了一个玩具文本环境，其中部署了一个智能代理为一家虚构公司管理股票投资组合。研究人员发现，智能代理在70%的情况下决定根据内幕消息买入股票，而人类询问智能代理是否获得了内幕消息时，智能代理经常撒谎，理由是最好不要承认有内幕交易。虽然这是在模拟环境中发生的，但它揭示了智能代理在现实世界中部署时，可能会产生意想不到的后果。

3. 目前的监督方法不够充分

目前，智能代理的能力还很低，当它们犯错或出错时，AISI往往可以及时发现并解决，但当AISI必须监督在特定专业领域中更强的系统行为时，该怎么办呢？解决这个问题的方法之一可能是使用一个能力较弱的人工智能系统来协助监督一个能力较强的人工智能系统的行为——如果这种方法可行，那么就为解决“可扩展监督”问题提供了一条出路。AISI的合作伙伴红木研究公司（Redwood Research）在一个虚拟环境中模拟了这种设置：他们让一个能力较强的模型编写代码，让另一个能力较弱的模型对代码进行评估。评估者模型受命在代码中找出编码者模型故意插入的漏洞。实验发现，在大约一半的时间里，评估者模型无法捕捉到这些漏洞。尽管这只是一个简单的概念验证，但AISI得到的启示是，随着强大的人工智能系统能力的提高，对其进行监控可能会越来越具有挑战性。

结语

AISI的使命是对先进的人工智能进行有效治理，因此仅靠评估是不够的。AISI可能还会进一步加快技术进步，以支持新的治理形式，从根本上实现更安全的人工智能发展，并确保社会系统安全，抵御人工智能风险。目前，AISI正在多个领域开展基础性人工智能安全的研究工作，包括人工智能模型的可解释性、对模型行为的干预以及人工智能对齐的新方法等工作。未来，这些工作将致力于提高模型性能、透明度、安全性和一致性。先进的人工智能系统具有巨大的潜力，能够推动经济增长、提升生产力、促进健康福祉、改善公共服务并增强社会安全。然而，与之相伴的，是前所未有的风险与挑战。为了充分发挥先进的人工智能系统的优势，必须正视这些风险，积极寻求应对策略，共同迎接人工智能新时代的到来。

免责声明：本文转自元战略，原作者Zoie Y. Lee。文章内容系原作者个人观点，本公众号编译/转载仅为分享、传达不同观点，如有任何异议，欢迎联系我们！

推荐阅读

转自丨元战略

作者丨Zoie Y. Lee

研究所简介

国际技术经济研究所（IITE）成立于1985年11月，是隶属于国务院发展研究中心的非营利性研究机构，主要职能是研究我国经济、科技社会发展中的重大政策性、战略性、前瞻性问题，跟踪和分析世界科技、经济发展态势，为中央和有关部委提供决策咨询服务。“全球技术地图”为国际技术经济研究所官方微信账号，致力于向公众传递前沿技术资讯和科技创新洞见。

地址：北京市海淀区小南庄20号楼A座

电话：010-82635522

微信：iite_er