探索机器学习安全的重要角色,
作为下一代人工智能和机器学习保护的前卫。
当前态势和新漏洞可能
对现有模型的对抗性追踪 模型盗窃和劫持 无法在内部进行大规模的防护策略供应(例如零信任控制) 嵌入在采用OSS模型中的勒索软件 在模型生命周期(生产前/生产后)中保持模型的完整性
新兴的趋势
机器学习并不是新的技术,但从这个角度来看,我们正在进入一个关键的十年,关于机器学习的实践和供应链本身的安全保护方面。我认为,行业尤其是保护该领域的重要性,还得到了三个关键新兴趋势的支持,这些趋势突显了专注于保护机器学习供应链的重要性:
人工智能攻击的增加:所有人工智能网络攻击中,有30%利用了趋势性数据污染、人工智能模型盗窃和附加在人工智能核心上的对抗性样本。
数据扩张:如今,企业每天都在产生海量的数据,移动平台和远程办公等平台转变是其主要原因,企业负责收集客户数据,并更重要的是保护这些数据的安全。
责任分摊的混乱:机器学习涉及到多个团队,包括商业智能、数据科学团队、机器学习工程师、IT、安全等等。类似于由大规模技术扩展者引领的共享责任模型,越来越多的公司难以承担起对模型的责任,从而使自己暴露于恶意攻击之下。
部署方式
数据准备 - 合成数据提供商:合成数据提供商是专门生成合成或人工创建数据以模拟真实数据并保持隐私和匿名性的公司或服务。以下是使用案例和示例:
数据生成:合成数据提供商开发算法和方法来生成合成数据。他们的目标是创建与真实数据的统计特性和模式非常相似的数据,包括生成数据点、建立变量之间的关系和复制目标数据的特征。
隐私保护:合成数据的一个重要优势是保护原始数据集中个人的隐私和机密性。合成数据提供商采用数据匿名化、去标识化和差分隐私等方法,确保个人信息无法与特定个体关联起来。
数据定制化:合成数据提供商允许用户在生成的数据中指定所需的特征和属性。这种定制化可以包括定义变量的分布、确定属性之间的关联性以及控制数据集的整体结构。用户可以根据自身需求和研究要求来定制合成数据。
真实数据表现:合成数据提供商致力于创建能够准确反映目标领域真实场景和挑战的数据。这涉及捕捉原始数据中的复杂性、模式和异常情况,使用户能够进行有意义的分析和测试。
可扩展性和多样性:合成数据提供商通常提供可扩展的解决方案,可以生成大量数据以满足不同用例的需求。他们能够创建具有各种场景、异常值和边缘情况的多样化数据集,全面代表目标领域。
验证和评估:合成数据提供商可能提供工具和技术来评估生成的合成数据的质量和有效性。这可能涉及统计分析、可视化和与原始数据集的比较,以确保合成数据准确捕捉到实际数据的特征。
集成和部署:一旦生成了合成数据,提供商可能会协助用户将其集成到现有的工作流程和系统中。他们可以提供API、数据格式或集成支持,以促进将合成数据无缝地整合到各种应用和平台中。
模型的训练和验证 - AI防火墙:
行为分析:AI防火墙从历史数据/模型中学习并建立用户、设备和应用程序的基准行为。然后它们可以检测与预期模型模式的偏离,例如异常的网络流量、访问尝试或数据传输,这可能表明存在安全漏洞。
零日威胁检测:零日漏洞是指在安全补丁或修复程序发布之前,黑客利用的先前未知的安全漏洞。AI防火墙可以分析网络行为并识别异常活动,这可能表明存在零日攻击,并提供早期警告和主动防御机制。考虑到开源软件(OSS)模型的兴起,零日检测变得至关重要。
模型验证和部署 - 模型注入保护:
对抗性攻击:对抗性攻击涉及操纵输入数据以误导或欺骗机器学习模型。这些攻击可以旨在绕过安全措施、导致错误分类或利用模型中的漏洞。模型注入保护有助于检测和缓解此类攻击。
输入验证:模型注入保护涉及在机器学习模型用于推理或决策之前对输入数据进行验证和清理。这个过程确保输入符合预期的格式、范围或约束,降低注入恶意或未经授权内容的风险。
数据完整性检查:模型注入保护可能包括验证模型本身的完整性和真实性的机制。这可以涉及使用密码技术、数字签名或校验和来确保模型自创建或部署以来没有被修改或篡改。
模型验证:模型注入保护可以涉及对机器学习模型进行定期或连续监控,以确保其完整性。这可以包括验证模型的架构、参数和权重,以检测任何未经授权的更改或篡改。
运行时异常检测:模型注入保护可能在运行时使用异常检测技术,以识别机器学习模型的异常行为或意外输出。这有助于检测潜在的模型注入攻击并触发适当的响应机制。
访问控制和身份验证:模型注入保护可以涉及实施访问控制机制和身份验证协议,以防止未经授权的访问或修改模型。这包括保护托管模型的基础设施,控制模型更新的权限,并为授权用户实施强大的身份验证机制。
模型监控 - AI/ML可观测性:
监控和日志记录:AI/ML 可观测性公司提供监控和日志记录功能,用于跟踪AI/ML模型、基础设施和数据管道的行为和性能。它们收集和分析各种指标、日志和事件,以提供对系统健康状况、资源利用情况、数据质量和其他相关参数的可见性。
性能和效率优化:这些公司帮助组织优化其AI/ML系统的性能和效率。它们提供工具和技术来识别瓶颈、低效和资源限制,使企业能够微调模型、提高训练和推理速度,并优化资源分配。
数据质量和漂移监控:AI/ML可观测性公司专注于监控AI/ML管道中的数据质量和检测数据漂移。它们帮助组织识别缺失或不完整的数据、异常值、概念漂移或数据分布的变化,这些因素可能会影响模型性能。通过监控数据质量和漂移,企业可以采取纠正措施并保持模型准确性。
异常检测和根本原因分析:这些公司提供异常检测功能,用于识别AI/ML系统中的异常行为或偏离。通过分析指标、日志和其他数据来源,企业可以识别和诊断问题,及时进行干预和根本原因分析,以解决问题并确保系统的可靠性。
模型可解释性和可理解性:AI/ML可观测性公司提供工具和技术来增强模型的可解释性和可理解性。它们提供关于模型如何进行预测、特征重要性和模型决策过程的见解。这有助于组织理解和验证模型的行为,确保公平和透明,并遵守监管要求。
警报和通知:AI/ML 可观测性公司提供警报和通知机制,及时向利益相关者通报系统问题、异常情况或与预期行为偏离的情况。这使得可以及时响应和采取措施,以减轻潜在问题或性能下降的影响。
可视化和报告:这些公司提供可视化和报告功能,以用户友好和可操作的格式呈现 AI/ML 系统的指标、趋势和见解。可视化工具帮助利益相关者了解 AI/ML 模型的性能、行为和影响,并促进决策过程。
集成和协作:AI/ML 可观测性公司确保与现有的 AI/ML 基础设施、数据管道和监控生态系统无缝集成。它们可能提供 API、集成和协作功能,以简化可观测性过程,并促进数据科学家、开发人员和运营团队之间的跨职能协作。
安全产品套件和复杂性
相关行业
当前市场现状
现有供应商(如Amazon Sagemaker、Google AI):
这些供应商以提供从数据仓储、安全性、训练到模型部署的完整端到端能力而闻名。 针对“最先进”的安全性领域设计,同时具备必要的企业附属功能,如日志记录。
ML/AI可观测性(如Arize、Arthur、Fiddler):
这些供应商以能够监测、排除故障和优化生产环境和预生产环境中的模型而闻名。 其初始重点是内部和性能方面,以检查合规的人工智能(偏见)、数据探索、模型性能和漂移。 较少关注安全性,因为安全性往往是一种从外部到内部的关注。
新兴竞争者(如Robust Intelligence、HiddenLayer、Protect.ai):
能够保护模型免受对抗性攻击。 在模型部署的全过程中实施人工智能防火墙和访问控制。 能够检查来自流行的开源平台(如Hugging Face等)的模型有效性。 实施模型验证程序以对机器学习模型进行持续监控,确保其完整性。
更进一步,细致的论点
往期回顾
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...