2024百度云智大会 | 百度大模型内容安全合规探索与实践 - 新鲜讯息

9月25日，2024百度云智大会在北京举办。会上，百度智能云分别针对算力、模型、AI 应用，全面升级百舸 AI 异构计算平台 4.0、千帆大模型平台 3.0 两大 AI 基础设施，并升级代码助手、智能客服、数字人三大 AI 原生应用产品。

在大模型平台技术实践论坛上，百度大模型内容安全平台负责人李志伟以《大模型内容安全合规实践》为主题，为与会者深度剖析大模型的安全挑战与解决方案的落地实践。

人工智能技术的飞速发展，特别是大模型的出现，正在深刻改变着各行各业的生产方式和服务模式。然而，伴随着巨大机遇而来的，是前所未有的安全挑战。李志伟深入分析了大模型在实际应用中面临的多方面风险，包括但不限于违法违规内容生成、偏见歧视、误导性信息传播、内容侵权、个人隐私泄露等。他强调，这些风险不仅可能给企业带来法律和声誉风险，更可能对社会稳定和公众利益造成严重危害。因此，如何有效应对这些挑战，成为了每一个参与大模型开发和应用的企业必须认真思考和解决的问题。

百度大模型内容安全平台负责人李志伟

面对这些复杂而严峻的挑战，百度安全推出了全面而深入的大模型内容安全合规解决方案。李志伟用生动的案例，详细阐述了百度在这一领域的创新实践。他强调，百度的解决方案覆盖了从模型训练、部署到业务运营的全生命周期，不仅能够有效应对当前的安全挑战，还为未来可能出现的新型风险预留了应对空间。

大模型内容安全能力矩阵

百度大模型内容安全合规解决方案提供了全方位的安全防护能力，采用多层次防护策略，首先通过先进的自然语言处理技术，精准识别多语种输入内容中的各类风险，包括但不限于违法违规、偏见歧视、和误导性信息；其次，它能够智能改写和补全对话内容，确保信息传递的完整性和合规性；方案还集成了涉政、违法、不良价值观等多维度的安全审核模块，构建了全面的内容安全防线。针对敏感话题，方案配备了基于大规模知识图谱的标准化回复机制，有效降低了大模型的拒答率，同时保证了回复的准确性和权威性。李志伟特别强调，该解决方案在应对突发安全事件时表现出色，通过实时的语义分析和文本干预等先进技术，能够快速识别和响应新出现的安全威胁。更值得一提的是，该方案构建了覆盖政府官方网站、权威媒体等可信来源的知识库，确保大模型输出的内容始终与官方口径保持一致，极大地提高了模型在处理敏感话题时的可靠性和公信力。

百度大模型内容安全合规解决方案基于 "大模型安全评测+安全对齐+安全防护+安全知识增强"的闭环服务体系，不仅实现了大模型的内生安全增强，还支持在离线环境中运行，满足了对数据隐私和网络安全有严格要求的终端设备的需求。通过这一系列全面而深入的安全措施，不仅有效应对了当前的安全挑战，还为未来可能出现的新型风险预留了充分的应对空间，展现了百度在大模型安全领域的前瞻性思维和技术实力。

在具体实践中，百度大模型内容安全合规解决方案首先从源头抓起，通过严格的训练语料合规清洗，降低模型生成不安全内容的风险。李志伟介绍，百度安全开发了先进的语料筛选算法，能够高效识别和过滤包括传统的涉政、涉黄、违法等内容，以及偏见歧视、商业秘密泄露等风险。这一过程不仅提高了模型的安全性，还在一定程度上提升了模型的整体质量。值得关注的是，百度安全在内容安全审核与风险代答方面，通过构建红线知识库和专门的安全大模型，实现对敏感问题的准确、中立、全面回答。这一技术不仅能够有效识别和处理潜在的风险内容，还能在保证安全的前提下，为用户提供有价值的信息。李志伟举例说明，当用户询问涉及重大政策的问题时，系统能够基于官方权威信息给出客观、准确的回答，既避免了错误信息的传播，又满足了用户的信息需求。

在多模态安全方面，百度安全通过多模态对齐、视觉理解和鲁棒性增强，实现对图像和文本的综合安全审核。李志伟强调，随着大模型应用场景的多元化，单一模态的安全防护已经远远不够。百度安全的多模态安全技术能够同时分析文本、图像、甚至音频和视频内容，有效防止跨模态的安全风险。例如，系统能够识别出看似无害的图片中隐藏的不当文字信息，或者检测出文本描述与图像内容不符的欺骗性内容。

此外，李志伟表示了大模型内容安全评测的重要性。他介绍，百度安全开发的全面安全评测框架，能够模拟各种可能的攻击场景，主动发现大模型潜在风险。这种评测不仅包括常规的内容安全测试，还包括对模型鲁棒性、公平性、可解释性等多个维度的综合评估。通过持续的安全评测和优化，大模型在安全性和性能之间取得了良好的平衡。

百度大模型内容安全合规解决方案已在多个行业中进行落地实践，企业的大模型生成内容合格率显著提高到了95%以上，同时将拒答率控制在了5%以下，大大提升了用户体验，有效防止了敏感信息泄露和不当回复，为行业的AI应用树立了标杆。百度大模型内容安全合规解决方案在2024国家网络安全宣传周荣获《大湾区安全技术创新成果》，在2024世界智能产业博览会上荣获《Find智能科技创新应用优秀案例》。这些荣誉不仅是对技术实力的认可，更是对百度在推动行业健康发展方面贡献的肯定。

丰富的产业实践斩获诸多荣誉

作为人工智能领军企业，百度高度重视大模型安全风险防范的能力建设和生态建设。面对当下“大模型+安全”所面临的新形势、新机遇、新挑战，百度将不断拓展人工智能技术在网络安全领域的技术革新与应用，与各界保持合作，共筑大模型安全防线，并以实践经验推动相关标准的建设，助力构建完善的人工智能安全保障体系，探索更安全的大模型落地千行百业的无限可能。