在过去的 10 年里,数据分析领域的顶级职位从统计学和应用建模演变为精算科学、数据科学、机器学习,现在则是人工智能和生成式人工智能。人工智能已经无处不在——大多数人都使用过它,几乎每个人对它都有自己的看法。作为一名工程师,我很高兴能将所有这些创新应用到实际应用中,并最终确保它安全可靠地运行。
在开始讨论保护生成式人工智能的这个系列文章之前,要花点时间概述一下我们目前的状况,并解释一些核心组成部分和复杂性。
生成式人工智能是一个广义术语,可用于描述任何生成内容的人工智能系统。当我们开始考虑保护生成式人工智能时,需要了解一些关键概念。
1.生成式人工智能可以是单一模型(例如大型语言模型),也可以由以各种配置组合的多个模型组成。
2.它可以是单模式(即仅文本),也可以是多模式(即文本、语音、图像)——这会影响模型训练的数据类型。
3.输入到模型中的数据可能有所不同。我们经常谈论的是某种形式的海量数据采集,并添加了自定义数据。这些数据可以结构化并贴上标签,也可以由模型根据某些模式进行标记。当你运行一个模型,数据被分析并输入时,在几秒钟内,所有这些因素都会合并成一个输出值。举个例子,一家企业可以部署“生成式人工智能”来帮助他们的客户服务,使用一个“大型语言模型”,该模型使用“来自他们之前客户服务代表的文本和语音数据”进行训练,使用一种监督方法,客户为之前的每一次互动提供反馈,以评价他们的互动。
除了部署生成式人工智能之外,我们还应该考虑构成上述模型的两个基础部分,即训练和推理。
训练是模型理解模式和多个对象之间交互的能力,例如单词以及它们一起出现的频率。
推理是使用经过训练的模型创建某种形式的输出的能力。Mark Robins 创建了一个很好的示例,总结了模型开发和使用的不同要素。请看下面的简单示例。
现在我们已经了解了生成式人工智能的关键组成部分,让我们来谈谈如何保护它。生成式人工智能就像任何其他类型的软件一样,可以部署到云或自托管计算中,也可以依赖第三方。自托管系统通常需要额外的高性能集群,以实现快速计算时间和快速响应用户。在部署这种类型的系统时,我们会遇到许多大型企业中常见的相同挑战,例如供应链安全、静态分析和数据安全元素。同样,我们需要评估数据的处理位置,特别是如果它是由第三方提供商或可能在其他国家/地区完成的。
这是来自 Meta 的开源Llama系统的一个例子,展示了如何将 Llama Guard 与 Llama 配对,以在上面描述的处理步骤中提供额外的安全性。
如果你仔细观察,就会发现生成式人工智能与众不同,它带来了一系列前所未有的安全挑战。生成式人工智能可以使用多模态输入,因此我们不仅可以处理语言,还可以添加代码、图片、音频和视频,这使得处理成本更高,数据更难控制。我们还必须处理概率输出,而不是确定性输出,这意味着重复性很难实现。这意味着需要成倍增加的处理能力才能发现隐藏的漏洞。幻觉、存储记忆、理解逻辑、构建代码和其他高风险领域也存在各种其他问题,可能需要构建无限数量的测试用例。
虽然有许多与传统安全相似的安全挑战,但我们也必须明白,这个新的复杂系统需要新的方式来处理安全问题。我们可以使用生成式人工智能来保护生成式人工智能吗?在我即将发表的系列文章中,我将深入探讨安全、安保、红队等。道路?我们要去的地方不需要道路。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...