人工智能对国家安全和公共安全的影响

2024年2月9日，在兰德公司举办的前沿模型评估科学日活动中，专家开会讨论了关于人工智能对国家安全和公共安全的影响评估（《Evaluating Artificial Intelligence for National Security and Public Safety》）。该会议旨在应对人工智能快速发展的步伐以及随之而来的开发评估方法的需求。会议汇聚了众多专家，包括独立评估组织的研究人员、前沿人工智能实验室的成员以及美国和英国政府的代表。本次会议主题为评估人工智能在国家安全和公共安全方面的应用，与会专家重点讨论了人工智能与化学和生物风险的交叉问题、人工智能系统的运行可能超出其开发者或用户设定的预期范围的情况，包括人工智能系统欺骗人类或自主行动；加强模型评估稳健性的风险不可知论方法框架；以及将政府、行业和民间社会的利益相关者联系起来，共同理解评估科学的目标。

一、人工智能与化学和生物风险的交叉问题

该主题深入探讨了人工智能模型在化学和生物风险评估中的应用、挑战和未来发展方向，为制定相应的科学评估方法和政策提供了重要参考。

会议首先回顾了以往完成的人工智能模型评估项目，分析了其中的经验与教训。研究发现，现有的评估方法在处理复杂的化学和生物威胁时存在一定的局限性。由于化学和生物威胁具有高度复杂性和适应性，早期的评估方法无法全面、准确模拟恶意行为者的应对策略。为了解决这一问题，与会专家建议采用模拟工具等动态评估技术，以更精准地捕捉恶意行为者的应对策略和行为模式。此外，会议强调了根据模型用途分类构建威胁模型的必要性。当前，专用模型和通用模型都面临着被恶意滥用的风险。特别是专用模型，其独特的风险配置文件更易被恶意利用。因此，对这两类模型进行更细致的评估至关重要。

会议还讨论了下一轮模型评估的需求和优先事项。其中，获取模型和评估工具的权限成为一个关键议题。目前，法律和合同框架对数据共享和评估行为的限制，尤其是保密协议的普遍存在，使得独立研究人员难以全面评估模型的能力和潜在风险。与会者呼吁建立共享机制，提高对模型开发阶段的可见性，特别是对于计划开源的模型，以便更好地理解和控制其潜在风险。

总体而言，该主题系统阐述了人工智能与化学和生物风险的交叉领域面临的挑战。

二、开发者与用户的控制权丧失的问题

在人工智能领域的研究与应用中，“控制权丧失”这一议题始终占据着关键地位，其核心在于探讨当人工智能系统的行为超出开发者或使用者预先设定的边界时，可能引发的一系列复杂问题。随着技术的飞速发展，这一领域的挑战也日益凸显。

在模型自主性方面，METR^[1]（前身为ARC Evals）提出了针对自主性评估的深入研究。METR强调，与传统的以增强恶意行为者能力为中心的威胁模型不同，人工智能的自主威胁主要源于人工智能在缺乏明确恶意目标的情况下，独立执行潜在有害行动的能力。这些行动可能包括网络钓鱼攻击、操控数字基础设施等。METR提出，尽管目前自主人工智能行动的全部范围尚未完全展现，但有必要进行充分的准备和警惕，以预测和应对这些新型威胁。为了更准确地评估相关自主能力，METR开发了一系列任务，如实施机器学习研究、改进人工智能代理的脚手架以及管理大型复杂代码库等。

在欺骗性评估方面，阿波罗研究中心通过演示验证了人工智能系统在特定情境下的欺骗能力，揭示了欺骗行为可能源于复杂人工智能系统的意外结果，而并非仅仅是恶意行为者的故意行为，这一发现进一步凸显了防范人工智能欺骗行为的紧迫性。为了应对这一挑战，阿波罗研究中心提出了建立“评估科学”的构想，倡导综合运用多种技术手段揭示和理解人工智能模型的欺骗行为，例如直接诱导、设置陷阱以及利用可解释性方法等。此外，阿波罗研究中心还强调了借鉴其他人工智能风险领域（如公平性和偏见）的文献和专业知识，以及参考其他高风险系统（例如商业航空）的保证生态系统的必要性，以有效解决人工智能保证生态系统中的伦理、技术和运营难题。

控制权丧失主题以严谨的学术态度，深入剖析了人工智能系统的自主性和欺骗性问题。通过详细探讨METR和阿波罗研究中心的研究成果，为未来人工智能模型在控制权丧失领域的评估工作提供了宝贵的指导和参考。

三、风险不可知论方法框架的问题

风险不可知论方法框架旨在制定一种风险不可知的方法论框架，以增强模型评估的稳健性。会议首先探讨了多种评估方法，包括红队测试、自动化基准测试以及复杂任务设计。与会者们强调，在模型开发不断进步的背景下，稳健的评估方法对于衡量前沿模型的潜在风险至关重要。会上，一位兰德公司的主持人展示了一张草稿表格，列出了主要评估方法的关键属性，如可重复性、深度和通用性，以促进讨论。该框架旨在通过分解评估方法的核心维度，促进对不同方法优势与局限性的深入理解，从而为模型能力提供有力证据。

会议还讨论了如何在扩大评估工具的可及性以促进创新和社区审查的同时，确保评估的完整性、稳健性和有效性。重点强调了保留任务的重要性，即在评估时保持模型的未知性，并探讨了运用密码学哈希技术来保护评估数据完整性的方法。这些措施对于防止评估数据被纳入模型训练集、维护评估稳健性至关重要。此外，会议还提出了在促进透明度与维护评估完整性及稳健性之间寻求平衡的必要性。

在评估的稳健性和有效性方面，METR提出了一系列关键问题，为构建有效评估提供了基础，同时认识到了解方法局限性的重要性。如评估需要忠实于相关威胁模型，评估的可扩展性以及如何识别评估问题的警告信号等。此外，与会者还讨论了评估独立模型与评估更广泛系统之间的区别，强调了根据威胁模型进行评估的必要性。

四、多元主体的协作与协调问题

多元主体的协作与协调，旨在推动人工智能研究与开发专家、政策研究人员及专业人士之间的对话。与会者提出了未来工作中需要解决的若干开放性问题。强调了对模型开发进行前瞻性风险管理的重要性，因为很难预测未来的模型能力。前沿模型的双重用途和通用性使其可能被恶意行为者利用以造成重大损害。为了确保有效开发缓解措施，会议确定了评估人工智能输出的质量和准确性、考虑威胁模型的广度以及模型部署的操作环境的必要性。如今，红线旨在主动识别负责任的模型部署的风险阈值，如果超过这些阈值，则需要采取重大应对措施。这些阈值仍在开发中，可能支持创建标准和最佳实践。

在本次会议中，参与者研讨了一条从模型的初步探索性评估到制定标准的路径。这条路径需要包括学术界、工业界和政府在内的各个领域的利益相关者的协作努力，他们被邀请识别模型开发的基本伦理和安全要素。这种方法将指导政策制定和探索性评估，促进前沿模型的负责任发展和部署。从这些评估中获得的见解将为风险评估、缓解和标准制定的迭代过程提供信息。然而，达成关于红线的共识构成挑战，因为模型能力具有复杂且往往模糊的性质。实现这些问题的共识需要广泛联盟的协调努力。这一过程中不可或缺的策略包括组织专题研讨会、维持持续对话以及考虑私营部门的见解和创新。

此外，会议还探讨了在负责任的能力扩展（RCS）背景下，在人工智能开发中建立明确风险阈值的可行性和影响。RCS是领先人工智能实验室用来管理开发和部署前沿人工智能系统相关风险的框架，包括风险评估、预设风险阈值以及在这些阈值上的缓解承诺——包括在必要时暂停开发或部署。然而，会议强调，由于风险和收益的渐变性质，划定可接受风险与不可接受风险的界限具有挑战性。与会者指出，实施风险阈值将需要提高人类理解和衡量人工智能风险和收益的能力，但他们也强调了拥有明确决策边界的重要性。讨论还揭示了人工智能风险管理的多面性。与会者强调了进行彻底和定期评估以衡量预训练改进和更隐蔽的后训练进展的重要性。考虑到评估的成本和后勤挑战，会议参与者探索了人工智能风险评估与生物风险评估之间的类比，并建议人工智能可以借鉴生物风险评估的重新评估标准——例如在用于训练模型的计算能力显著增加或模型的操作环境发生变化后进行评估。此外，对话强调了及时制定和实施有效缓解策略的重要性，这需要向预测性治理转变，重点是预测潜在危害，并在这些风险显现之前启动保护措施。会议最后提出了定期并及时评估及采取缓解措施的建议，强调了实施持续评估人工智能系统的重要性——无论是在训练期间还是之后——以捕捉改进并迅速解决新兴风险。此政策行动旨在通过确保缓解策略有效并得到实施，以适应前沿模型的不断发展和部署，从而预防潜在滥用。

五、结论

前沿模型评估科学日会议着重强调了合作以及跨学科协作对于有效降低先进人工智能系统潜在风险的关键作用。会议所探讨的各个主题揭示了高性能人工智能所关联的复杂风险图景，涵盖了自主性滥用、化学与生物威胁以及欺骗能力等多方面内容。

基于会议提出的政策建议，提倡采取多元化的策略，这其中包括优化评估手段、强化法律与伦理框架、保障模型及评估工具的广泛获取，以及在相关利益方之间培育共同责任的文化。

尽管这些措施为应对人工智能带来的挑战奠定了基础，但必须认识到，它们并未能为会议中提出的紧迫问题提供立竿见影的解决方案。所提出的行动倡议只是一个起点，旨在实现前瞻性治理，使利益相关者能够跟上人工智能的快速发展的步伐，并制定出有效的干预措施。然而，要直接应对会议中所强调的具体风险和挑战，还需要进一步开展研究工作、加强合作并实施精准的举措。通过营造开放对话、严谨评估以及积极政策制定的环境，便可以开始应对人工智能复杂双重用途的特性。尽管目前仍面临诸多重大挑战，但协作以及适应性策略为在保障人工智能收益的同时防范其风险、推动其进步，以促进社会和全球安全做出了积极贡献。

免责声明：本文转自启元洞见。文章内容系原作者个人观点，本公众号编译/转载仅为分享、传达不同观点，如有任何异议，欢迎联系我们！

推荐阅读

转自丨启元洞见

研究所简介

国际技术经济研究所（IITE）成立于1985年11月，是隶属于国务院发展研究中心的非营利性研究机构，主要职能是研究我国经济、科技社会发展中的重大政策性、战略性、前瞻性问题，跟踪和分析世界科技、经济发展态势，为中央和有关部委提供决策咨询服务。“全球技术地图”为国际技术经济研究所官方微信账号，致力于向公众传递前沿技术资讯和科技创新洞见。

地址：北京市海淀区小南庄20号楼A座

电话：010-82635522

微信：iite_er