作者：Josh Devon

时间：2025 年 12 月 02 日

原文：https://securetrajectories.substack.com/p/agent-trust-equation

如果你最近参加过在纽约举办的 AI Engineer Code Summit，大概都会对那种扑面而来的能量印象深刻：Demo 越来越快，Agent 越来越聪明，复杂推理的执行能力不断外扩，整体氛围只有一个关键词——加速，而且是显著加速。

但有意思的是，尽管几乎所有人都在构建和实验 Agent，真正把 Agent 以有意义的自主性部署到关键任务中的团队却并不多。现实呈现出一种明显的断层：

“我们能做到什么”与“我们实际上部署了什么”，并不在同一个水平线上。

当我向 Agent 构建者、厂商以及安全团队反复追问：究竟是什么在阻碍 Agent 真正落地？得到的答案出奇一致——信任（Trust）。

“信任”这个词本身很抽象，也很难量化。为此，我尝试把它拆解成一个简单的公式。在 AIE 现场，这个公式在解释 Agent 采用困境时，引发了不少共鸣：

也就是说，当我们讨论 Agent 是否“值得信任”时，实际关心的是两个问题：

它是否可靠（reliability）？以及它是否可治理（governance）？

首先是可靠性。要信任一个 Agent，我们必须知道它在多大程度上“能把事办成”。

如果我们期望它在某类任务上有 80% 的成功率，而现实中只在 20% 的情况下有效，那无论它多聪明，都谈不上可信。

其次是治理性。一个 Agent 是否遵守法律和组织内部的政策？它会不会做出我们明确不希望看到、甚至具有破坏性的决策？有没有办法确定性地禁止它做某些事情？

这个信任公式看起来很朴素，但背后其实对应着一条在 AI 历史中反复被验证过的路径：

用确定性的规则，去约束和治理非确定性的智能行为。

要真正理解这个公式如何为构建可靠、可治理的 Agent 提供蓝图，我们需要从一个更基础的视角来审视它——神经符号（neurosymbolic）。

胜利的历史：神经符号方法的一个直观说明

简单说，所谓神经符号方法，是指这样一种组合：

你允许系统采用非确定性的决策机制（例如神经网络或 LLM 的输出），同时叠加确定性的符号化规则（也就是明确写死的约束，比如“禁止删除数据库”这类控制边界）。

结果是：神经网络可以在规则允许的空间内自由探索最优解，但永远无法越过那条明确的红线。

这并不是什么新发明。事实上，神经符号架构正是 AI 历史上多次攻克“看似不可解问题”的关键。

AlphaGo并不是单纯依赖神经网络来预测下一步棋，它还引入了蒙特卡洛树搜索（Monte Carlo Tree Search）这一符号化搜索结构，用来验证和评估决策路径。
AlphaFold将深度学习给出的结构预测，与严格的物理与化学约束结合，最终解决了蛋白质折叠这一长期难题。
Waymo的自动驾驶系统同样如此：神经网络负责概率感知，去“看见”行人和环境；但“红灯必须停车”这样的规则，是由符号系统硬性规定的。你不能靠“提示词”说服汽车停车，只能用程序明确告诉它：必须停。

如果我们希望构建真正值得信任的企业级 Agent，就必须回到同一条老路上来。而前面的那个信任公式，恰好把这条路总结得非常清楚：

——神经网络负责把事做成，符号规则负责确保它不会做错事。

神经变量：可靠性（引擎）

可靠性其实只在回答一个非常具体的问题：这个 Agent，能不能把目标达成？目前，构建者们几乎把全部的研发火力都集中在这里。我们在改进 RAG，在优化工具调用，在通过 prompt chaining 让 Agent 自己一步步“想明白”正确答案。

在神经符号框架中，可靠性对应的是神经（Neural）这一侧。神经组件本质上是概率性的——模型依赖模式识别、直觉和自适应能力来解决问题。这种非确定性不是 bug，而是 feature。我们希望Agent 是概率性的：希望它有创造力；希望某个 API 挂掉时，它能主动绕路；希望它在适应变化时，更像一个人，而不是一台脚本机。

但这里有一个非常容易被忽视的陷阱：你无法只靠 prompt，把一个 Agent 调教成 100% 安全。原因并不复杂——神经系统本身就是概率系统。它永远不可能做到 100% 正确、100% 合规，或者永远符合预期行为。

一个可靠性达到 99% 的 Agent，依然意味着：每 100 次决策里，就有 1 次可能出现幻觉。在消费级产品里，这或许只是一次糟糕体验；但在受监管的企业环境中，这个 1% 不是“可接受误差”，而是一次真实发生的数据泄露、合规违规，甚至资金事故。

符号变量：治理（刹车）

如果说可靠性在问“能不能把事做成”，那治理问的就是另一个问题：它会不会守规矩？

治理对应的是框架中的符号（Symbolic）一侧。与神经系统相反，符号系统是确定性的——逻辑建立在硬约束和二值判断之上：一个动作，要么被允许，要么被禁止，没有“差不多”。

治理体现的是企业世界里的硬逻辑，比如：

这些话不是建议，也不是最佳实践。它们是符号化的规则，是系统级别必须被严格执行的边界。如果说神经系统是引擎，负责把车开起来；那治理系统，就是刹车，决定它在哪些情况下必须停下。

架构错配（The Architectural Mismatch）

市场之所以卡在今天这个阶段，根本原因在于：构建者正在试图用“神经式”的工具，去强制执行“符号式”的规则。

我们经常会写出类似这样的 system prompt：

但本质上，这是在要求一个概率性的大脑，去严格遵守一个确定性的边界。这件事注定会失败。

正如我们在《Sycophantic Agent》那篇文章中讨论过的：一个以“乐于助人”为目标函数的神经型 Agent，往往会在它认为违反规则反而更能帮到用户时，主动覆盖那些写在 prompt 里的符号化约束，我们把这种现象称为Sycophancy Loop（阿谀循环）。

从实践层面看，这并不是个案。Anthropic 在 Claude for Chrome 的红队测试中已经明确指出：即便是当前最先进的模型，当主要依赖软防御手段（比如更复杂的 system prompt 或高级分类器）来阻止不良行为时，失败率依然可能达到两位数。

要解开这个死结，构建者必须停止与架构本身对抗。正确的做法不是“把 prompt 写得更狠”，而是回到架构分工本身：让神经引擎负责“开车”，同时用 Agent 无法绕过的符号化护栏，把这台引擎包裹起来。

Agent 信任矩阵（The Agent Trust Matrix）

如果我们把可靠性（Reliability）和治理（Governance）映射到一个 2×2 的矩阵中，就能非常直观地看到：市场今天到底被卡在了哪里。

我们逐一来看这四个象限。

1. 幻觉实习生（低可靠性 × 低治理）

这是早期 “v1 时代”聊天机器人的典型状态。能力有限，几乎没有治理，本质上只是低风险实验品。它们出错时很烦人，但由于企业不会把关键任务交给它们，失败通常也不会造成系统性损害。

2. 官僚（低可靠性 × 高治理）

“官僚”是把传统、强硬的安全控制逻辑，原封不动套到 AI 上的结果。这类 Agent绝对安全，但也被锁得死死的，几乎无法完成任何有价值的工作。它们代表的是一种对创新的“消极防御”：通过让 Agent几乎无法运作，来保护企业。

3. 失控火炮（高可靠性 × 低治理）

“失控火炮”正是当前这波YOLO 模式Agent 的真实写照。它们极其聪明、反应迅速，能够执行复杂工作流；但在没有符号化护栏的情况下，把它们直接放进生产环境是令人恐惧的。一次来自高能力 Agent 的幻觉，就可能在毫秒级别内删除数据库、泄露机密，或者触发灾难性的连锁反应。

4. 有意义的自主性（高可靠性 × 高治理）

这才是终点。“有意义的自主性”指的是：将神经引擎的创造性问题解决能力，与符号化治理的硬边界真正结合在一起。这类 Agent 之所以值得信任，不是因为“看起来聪明”，

而是因为它们已经被证明：既足够可靠，能把事干成；又足够可治理，知道什么事情永远不能做。

为什么企业会被卡住？

现实中，大多数企业都被困在“官僚”或“失控火炮”这两个象限里。

以编码 Agent 为例：

有些组织处在“官僚”象限，选择全面禁止使用编码 Agent，结果是团队效率下降，ROI 被主动压低。
另一些组织则走向另一个极端，在全公司范围内开启编码 Agent，本质上是在 YOLO 模式下运行。这些 Agent 的可靠性很高，五分钟就能构建一个应用；但由于缺乏符号化约束，同一个 Agent 也可能在毫秒级别内产生幻觉、刷爆云账单、破坏代码仓库，甚至直接删库。

类似的情况，也出现在聊天机器人和深度研究 Agent 上：

有些组织把它们放在“官僚”象限，确实获得了一定 ROI，但远低于在更高自主性下本可以达到的水平。
另一些组织则处在“失控火炮”象限，只能通过 humans-in-the-loop 逐项检查来兜底，结果等同于剥夺了 Agent 本该带来的高 ROI 自主性。

Agent 构建者、厂商和安全团队都清楚这些风险的存在，因此甚至开始抗拒去实验更高能力的 Agent。但结论很清楚：我们必须向右上角移动，走向“有意义的自主性”。

这一步，代表着一次本质转变——从“只给建议的工具”，走向“可以被信任去执行工作的系统”。就像从GPS，走向Waymo。

解决方案：通往「有意义的自主性」的 Crawl / Walk / Run 路径

问题已经很清楚了：如何在不牺牲 Agent 创造力的前提下，走向“有意义的自主性”？

好消息是，这条路并不需要重新发明智能本身。我们可以沿着一条清晰的神经符号路线图前进：Reliability + Governance，而这条路线图的核心，是把仿真（Simulation）与控制平面（Control Plane）系统性地结合起来。

1. Crawl：把仿真当作发现引擎

对很多构建者来说，仿真往往被视为一种安全审计，或者是开发接近尾声时才不得不完成的“杂活”。但在神经符号架构中，仿真并不是收尾工作，而是高速的发现工具，也是提升可靠性的核心手段。仿真让你能够描绘出 Agent 的“物理规律”。通过运行成千上万条轨迹（trajectories），你可以系统性地获得对两个关键问题的可见性。

发现「有毒流」（Toxic Flows）（可靠性）：在 Agent 真正造成安全事件之前，往往会先出现可靠性失败。仿真可以暴露神经引擎性能退化的“有毒流”：比如无限循环、Agent 幻觉出并不存在的工具能力而走进死胡同，或者推理路径本身的崩塌。在仿真中捕捉并修复这些有毒流，本质上是在 Agent 接触真实用户之前，对神经大脑进行系统性调试。
收缩「热点边缘」（Hot Edges）（安全性）：在概率系统中，真正的危险往往不在中心，而在边缘。这些“热点边缘”是模型行为开始变得不可预测的区域。仿真允许你用大量极端和边缘案例去轰击 Agent，从而以实证方式验证：Agent 的创造力究竟是在什么位置，开始跨越合规红线。

给构建者的建议：用仿真来定义“安全流（Safe Flows）”。安全流，指的是 Agent 在其中既高效、又合规的具体执行轨迹。

给安全团队的建议：仿真提供了进行风险承保所需的精算证据。正如我们在《From Autonomous to Accountable: Architecting the Insurable AI Agent》中所讨论的那样，仿真可以生成证明 Agent 可被承保、在法律上站得住脚的数据基础。

2. Walk：身份与符号化边界

当仿真完成了“勘探”，下一步就必须开始画边界。“Walk”阶段的核心，是把发现阶段识别出的安全流，转化为明确、确定性的定义。这一步依赖两个最基本的符号化元件：身份（Identity）和策略（Policy）。

身份（主体）：你无法治理一个“幽灵”。要执行规则，首先必须给 Agent 一个独立、可治理的身份，并且这个身份必须与用户本身清晰区分。只有这样，系统才能确保：每一个动作都被记录在 Agent 名下，从而提供 CISO 和 GRC 团队所要求的取证级可追溯性。
策略（规则）：身份建立之后，才能开始绑定规则。这一过程，是把神经引擎的概率性行为，转化为二值的 True / False 决策。例如，如果仿真发现某个调试 Agent 在处理编译错误时，经常尝试读取敏感配置文件，那么在 Walk 阶段，就应当明确写下一条硬规则：“拒绝调试 Agent 读取/config目录的权限。”

这一步，本质上是在把抽象的企业合规要求，转译成机器可强制执行的代码。你正在搭建的是治理 Agent 所必需的规则体系与业务逻辑层。

3. Run：控制平面（运行时执行者）

仿真负责绘制地图，策略负责定义规则，但真正“踩油门、踩刹车”的，是控制平面。这是整个等式中主动生效的符号化组件。控制平面负责在运行时，强制执行那些 Agent 无法绕过的硬规则。例如：“如果检测到 PII，则阻断该动作。”

这不是建议，而是一个二值约束。控制平面会在动作真正执行之前，直接拦截 Agent 的意图。这意味着：即便神经大脑在某个时刻产生了危险行为的幻觉，符号化控制也能在最后一刻阻止“撞车”。这种运行时的强制执行，是解决 Sycophancy Loop 的唯一方式。否则，Agent 终究会为了取悦用户，而学会无视那些写在 prompt 里的安全指令。