蚂蚁集团韦韬：解决大模型安全可信，推动AI变革从引擎走向整车

4月29日，在2024中关村论坛“中关村国际技术交易大会-第八届中国网信产业前锋汇”网络安全产业论坛上，蚂蚁集团首席技术安全官韦韬进行主题演讲，提出推动行业AI的变革从“引擎”走向“整车”，并提出了“DKCF大模型应用可信框架”。

韦韬认为，大模型是一个智力引擎，在不同场景下需要不同的智力引擎。此外，大模型在实际应用中光有引擎也不够，大模型落地要解决安全可信问题，从而构造一辆辆配套的“整车”才能在产业应用中真正跑起来。DKCF框架将会为大模型这个“智力引擎”配上行业应用所必须的安全“底盘”、协同“电控”、知识“电池” 及数据链路驶向问题解答的“道路”，形成完整可信智能体。在这样的框架推动下，将会有越来越多的专业行业迎来智力变革。据了解，DKCF是蚂蚁集团在实践中总结出来的AI原生可信应用框架。

以下内容整理自韦韬的现场分享：

各位领导、各位老师、各位专家，非常荣幸借此机会给大家介绍蚂蚁集团在大模型可信应用方面的一些工作。

大模型出来以后，但凡是个科技场一定会谈这件事情，但是又能看到整体上目前还存在割裂的一面：AI在各种新闻和论文里已经无所不能，但在诸多行业应用领域，AI目前依然停留在“砖家”水平，只能落在某一个环节，且还存在各种各样的问题。AI对产业的提升作用，远没有达到理想的状态。更糟糕的是，目前在医学等专业领域使用AI时，已经有一些专家提出明确质疑：“聪明的AI只能帮些小忙，笨的AI会捅大篓子”。这里究竟是AI将再次辜负大家的希望，还是说目前行业在应用大模型时方式方法上也需要进行突破？

蚂蚁集团一直非常坚定的在拥抱AI，也在金融、医疗、安全等专业领域的应用方面做了很多的实践和尝试。我们确信AI会给世界带来巨大改变，但后继要做的大量工作，远远不止是局限在GPT大模型自身的事情，而是需要在行业AI应用的整体框架上做更全面更扎实的工作，才能真正走向对行业发展有重大推动力的行业人工智能时代。

首先，回到本源来思考：GPT给大模型带来的本质变化是什么？AI究竟是智能、本能还是智力？

前些年我和行业内很多专家认为，我们在做的AI是技能而不是智力，包括当时的深度学习、AlphaGo在内都只是一种特定“技能”，并没有产生通用智力。而GPT出来以后人类首次制造出了高阶通用的“智力”，这是一个真正的巨大的变化。现在计算机做的事情不再是人类手把手教它的事情，不是我们编在电路里面、编在程序里面的事情，而是它自己能学习、掌握、举一反三、融会贯通，是真正产生了智力。

这代表着人类第一次制造出了“智力引擎”，这件事情就像当年瓦特造出蒸汽机一样。蒸汽机是一个“动力引擎”，而这次造出来一个“智力引擎”，这是一个巨大飞跃。

GPT大模型有三个高阶通用“智力”能力：

1、归纳内化。它学习的信息大到一定量之后，就能够“顿悟”成为内化知识。

2、知识概念。抽象知识概念去匹配、去应用、去验证，不再需要去写智能表达式。这是知识把握的能力。

3、多步推理。从单步到多步开放推理，技能到智力的质变。就象我们在学校里做几何题，添了一条辅助线就会把问题变得简单。多步推理能把复杂问题变成一步步简单的问题，这是智力非常核心的能力。

但有了“智力”并不意味着就天然成为各行业的“专家”，GPT大模型真正在行业应用时依然会面临严峻的挑战：

比如，推理核验与残差。GPT目前还未解决幻觉问题，其应用在聊天对话、帮助做文摘可以，但用在行业应用方面，还是很容易出现“表演倾向”胡说八道的情况，这在做专业决策时是万万不行的。专业决策要进行关键验证，特别是在做决策时要能指出“信息不足”或意识到“能力不足”而不是胡乱给出一个结论。这是目前GPT大模型推理核验的一个巨大问题。

这背后在本源上有几个严重的问题：

首先是专业知识工程。如今的大模型是由通用知识来训练而成，而专业知识库难以通过通用信息获得，需大量专家参与。专业概念把握正确与否，是“专家”和“砖家”的一个显著区别。

其次是反馈循环效率。反馈是现代控制系统的核心机制。GPT架构的反馈循环效率非常低，GPT大模型的SFT、RLHF等迭代代价相当大，难以高效内化场景知识的变更。这也是GPT在行业应用面临的一个严重问题。

最后是万用能力及信息汇聚单点。随着GPT能力不断的提升，业界有着巨大的冲动把各种信息（RAG）和各种工具（Tool）都接入到大模型上。但是当前的大模型应用系统本质上是缺乏基本的安全范式思考和设计的。假如大模型被突破，其接入的各种工具、系统、信息都会面临严重的安全威胁。这也是需要行业共同思考和应对的挑战。

我们把大模型的能力及需要改进的问题想清楚后，再去看GPT智力引擎在行业应用发展的大方向，就比较清晰了。GPT大模型它是一个智力引擎，但就像一种发动机无法适配所有车型一样，大模型的性能和成本也有巨大差别，在不同场景下需要不同的智力引擎。此外，解决行业专业问题，也不是光有引擎就行，我们需要构造一辆辆配套的“整车”才能真正跑起来。

不同规模的GPT大模型，大小从几十亿、到几百亿、到几千亿差异很大，它们作为“智力引擎”在通用智力维度上也有很大区别，包括核心的逻辑能力、数学能力、知识面广度和深度、工具调用能力等。同时，它们的性能和成本也有巨大差别，所以在不同的应用场景下需要不同的智力引擎。将这些引擎用在各个行业场景时，还面临着如下几方面的关键挑战。

首先是智力推理。蒸汽机的作用是推动火车往前跑，智力引擎就是做推理。但纯黑盒化推理决策是有严峻风险的，没有可靠约束的情况下，很容易“跑飞”。具体而言包括，不知道适用的范围(表演型人格)；不知道故障的发生(神经病症)；不知道风险的来临(偏执型人格)，深黑盒AI技术很难在微观机制层面进行有效解释。如何把决策过程白盒化，使其可解释？这在以前的深度学习阶段可能是件极其艰难的事，但是大模型出现后带来了一定的转机。

打个比方，以前在深度学习阶段的AI还是婴儿状态，我们无法让婴儿解释自己想要干什么。但是现在GPT已经成长为一个少年，它可以自己给自己的推理决策作出解释。即其作出的决策是GPT大模型自己可解构、可解释的。随着能力的增强，它还会逐渐成长为中学生、大学生，把自己的推理解释的更清楚、更完备。推理过程自解构，并能进行分拆验证，这是推理层面白盒化是能做的事情。即使在今天我们也很难通过给大脑拍CT来解释大脑的复杂决策细节。但是可以在宏观规则层面，对复杂推理决策进行解释，这是整个智力层面推理白盒化要做的事情。但要保障这个过程的可靠性，则需要专业知识工程提供详细的知识供给，以对解释分拆进行专业性验证，同时需要协同机制来进行高性能核验，并需要反馈机制基于残差识别进行数据供给等工作的联动。

知识供给：概念的准确与否，是“专家”和“砖家”的基本界限。知识供给需要专业知识工程。建设行业的高质量数据集只是第一步，后面还需要把数据集汇聚成领域知识图谱，保障它的准确性、完备性和可计算性，并做相关的验证。行业在这一方面有不少探索，比如把大模型和知识图谱结合，来增强大模型的专业知识供给。比如蚂蚁集团最近和知识图谱社区共同发布开源的OpenSPG（语义增强可编程知识图谱），能很好的来支撑大模型做行业的专业知识图谱。在这个过程中，专业知识图谱的构建也将和以前有巨大的区别，大模型在归纳总结上发挥巨大的作用，但重要的是要和专家做知识对齐。

智力协同：大模型在行业应用时未来的趋势一定不是单一引擎。特别是复杂任务场景，它不是靠一个智能体就能解决问题，必然需要多个智能体协同交流。多个智能体之间的任务规划、编排、协同越来越重要。其中规划部分是第一个核心，多步规划本身是一个巨大的智力和专业双重挑战。目前在实践上，专家参与的基于专业知识工程提供的SOP（标准操作流程）来做规划是最佳实践；未来规划Agent技术逐步成熟后，可以与专家知识一起迭代，形成最佳规划的持续迭代优化。无论哪种方法，在将一个复杂任务经过规划分拆成更小规模的子任务后，多智能体协同都能显著提升大模型在行业应用的效能。

核验与反馈：学过计算机的人都知道，NP问题检验是比较简单的，但是推理是相当复杂的。所以在核验时，复杂度是远小于多步推理的，这样就可以利用更高性能、更低成本的大模型，来做完成核验这一工作。这对大模型在各个行业中的应用也十分重要。现在的通用大模型在缺乏核验时，专业领域多步推理“跑飞”的概率很大，甚至会超过30%。而反馈对于大模型而言也是重要的一环，反馈是现代控制系统的核心机制。如前面所说，现阶段大模型自身的反馈机制，还是非常低效的，GPT大模型的SFT、RLHF等迭代代价相当大，难以高效内化场景知识的变更。对于实时任务来说，很难起到应有作用，所以在数据反馈、人工反馈、知识反馈上都需要做全新的设计。特别是对今天信息链路供给严重不足的很多专业场景，“信息不足”的推理研判结果要驱动数据供给，才能够形成一个完整的业务闭环。

智力成为汇聚性单点：大模型在接入各种各样的能力、各种各样的信息成为一个庞大系统的汇聚单点以后，如果自身没有安全保障、易于被攻击者控制时，会造成灾难性后果。但在当前，Agent协同体系普遍缺乏原生安全范式设计的认知。

首先，访问控制策略上应遵循OVTP可溯范式（Operator-Voucher-Traceable Paradigm）。大模型应用系统在安全策略层应当遵循OVTP可溯范式，即大模型对所有工具或外部信息的访问控制都应基于该访问的操作者链路（Operator）和凭证链路(Voucher)的端到端信息来决策，而不是直接使用大模型自身的身份。不幸，这在今天业界是常态，大模型的工具调用和信息调用目前普遍缺乏身份和凭据透传,容易导致大量身份混淆攻击和信息泄露的严重安全风险。更严重的是，今天大模型会学习很多信息。当一个信息被大模型内化之后，如何让大模型区分哪些东西可以讲只能对谁讲，哪些东西不能讲，仍然未得到很好地解决。所以对于行业大模型的应用，建议敏感信息不要让大模型去学习，而是在实际应用中通过RAG外挂对接，在RAG访问是做符合OVTP范式的访问控制。

其次，访问控制机制上应遵循NbSP零越范式（Non-bypassable Security Paradigm）。零越范式是一个更基础技术要求，即应当确保关键安全检查点不可被绕过，所有绕过的行为皆为非法。零越范式NbSP是网络空间安全保障的一个必要条件，而且是其他网络安全基本属性，如机密性、完整性、可用性等的更基本更底层的一个安全范式。NbSP范式是决定网络空间分层分区设计与实现的一个本源范式，其范围也是跨维度的。今天的大模型应用系统这个挑战非常严峻。因为大模型平台自身相当复杂，同时还在不停的接入越来越多、各种各样的工具系统，在AI平台、应用框架、第三方库等等位置都可能引入严重安全漏洞，或者有密钥泄露，这些都将导致访问控制点被绕过。今天能够看到已经陆续出现了不少安全事件，包括OpenAI、HuggingFace等都受到攻击。更严重的是，GPT大模型主体上是一个对话式的API，GPT大模型本身无法区分哪些输入是系统的指令，哪些输入是用户的数据。这样就产生了一个我们称之为ChatInjection的巨大的攻击面，类似于大家耳熟能详的SQLInjection，但边界更加模糊，更加难以防范。最近很多大模型相关的攻击，比如大模型越狱，Prompt窃取，工具命令植入等等，本质上都是这个类型的攻击。需要业界在ChatInjection安全方面有更系统化的机制去防范。

可以见到当大模型成为万用能力、万用信息接入点后，它的应用规模系统是非常庞大而复杂的，变更非常快速，用传统的防御体系已难以满足需求，需要一种既融合又解耦的新安全机制来保障整体系统的安全。蚂蚁集团在这方面也有一些探索，我们正在基于安全平行切面做可信的智能防御体系，构建面向Agent的原生安全底盘，来为大模型应用系统提供OVTP/NbSP等原生安全范式的完整和持续保障。

最后，智力实践的上限是数据。数据决定了问题可解的上限。缺乏数据的时候，大模型倾向于胡说八道，最终行业问题的解决依赖于关键数据能否按需获得。这在大模型“智力引擎”出现之前，数据供给问题不是很突出，因为总可以有人去手工对接。当大模型越来越广泛的应用的时候，数据供给问题也越来越迫切。

DKCF大模型应用可信框架：总结一下，在专业领域问题空间中，大模型是智力“引擎”，专业知识库是智力“电池”，协同反馈是“电控”，安全为“底盘”，而数据链路为驶向问题解答的“道路”，整体构成了完整可信智能体。这也是我今天想跟大家分享的DKCF大模型应用可信框架。

具体而言，引擎（GPT大模型）需要匹配领域场景，特别是成本和性能限制；电池（专业知识Knowledge）可以是纯电的（大模型内置），也可以是增程的（外置知识图谱，通过RAG对接）；道路（数据链路Data）必须要是通达的，否则会导致车祸（大模型胡说八道给出错误解答）；智能电控一方面需要处理好各个部件间的工作协同(Collabration)，另一方面需要将道路的情况（特别是数据不足）进行及时反馈(Feedback)；而安全需要成为智能系统的内生能力，不仅仅是保险带和气囊这样的独立部件，更要在底盘设计实现时就要保障好安全性。

我们认为行业AI的变革需要从“引擎”走向“整车”。GPT大模型在行业里首次实现了“人造智力引擎”，但光有智力“引擎”远远不够，如果只用这个引擎就会发现，聪明的AI只帮小忙，而笨的AI捅大篓子。我们需要DKCF这样的可信框架，推动行业大模型安全可信，从而助力大模型应用变革，推动越来越多的专业行业迎来智力革命。

谢谢大家！