神经信息处理系统大会(NIPS,NeurIPS)是由连接学派神经网络学者于1987年在加拿大创办的国际学术会议,现由NIPS基金会主办。该会议固定在每年12月举行,被中国计算机学会列为人工智能领域A类会议 ,在谷歌学术全球影响力排名中位列第7位(h5指数337),并与ICML、ICLR并称为人工智能领域三大“难度最大,水平最高,影响力最强的”顶级会议。论文录用难度大,2025年有效投稿的录用率不足25%。
随着人工智能的快速发展,训练数据需求激增,数据泄露风险也在不断加剧。尽管泄露事件频发、成本高企,但现有的数据泄露防护技术仍难以跟上规避手段的演化,敏感信息识别(SIR)模型面临越来越大的挑战。现有数据集在对抗性变换覆盖上存在不足,限制了鲁棒敏感信息识别系统的评估与发展。
针对这一问题,我们提出了DataSIR——首个专门面向敏感数据识别的对抗性基准数据集。我们基于多项国际法规,构建了26类敏感数据类别,收集10万+原始样本,并结合真实世界中的规避策略,设计了21种格式变换方法,将数据集扩展至160万+样本,充分模拟复杂的对抗性场景。
我们进一步使用多种传统NLP模型和大型语言模型(LLMs)开展了系统评测,并设计不同提示策略,验证了先验知识对识别准确率的影响。实验结果显示,DataSIR能够有效区分不同算法性能,为行业提供了一个覆盖更全面、挑战更真实的评测基准。
凭借丰富的类别、多样的格式与严谨的设计,DataSIR不仅能够为学界和工业界提供权威的对抗性评测标准,更将助力下一代敏感信息识别技术的迭代与突破。
安恒信息率先关注到这个问题,并将其相关的能力集成到多个数据安全产品中(如AiSort数据分类分级、API风险监测、AiMask数据脱敏等产品),极大地提升了产品的敏感数据识别能力,构建了坚实的数据安全防护屏障。
从1.0时代AI仅赋能单环节数据分类分级,到现在2.0时代实现全流程AI赋能:涵盖3大关键环节:分类分级框架定制、自动生成分类分级结果、分类分级结果核验与调优。本次2.0时代的跨越,大幅提升数据分类分级效率,相比传统人工数据分类分级,2.0时代效率提升60倍。安恒连续3年成为Gartner数据分类分级推荐厂商,并被多个第三方机构评为细分赛道第一。
传统的API风险监测方案通过正则匹配识别API业务属性和传输的敏感数据,存在静态规则限制。AI则正在驱动API风险监测体系的重塑,覆盖智能研判API资产、自动解读API属性、智能识别敏感数据、智能研判API风险等方面。安恒信息API风险监测,凭借95%的准确识别率与10倍的运营效率跃升,开启API风险监测的智能新时代。基于此,安恒信息入选Gartner中国API管理代表厂商。
安恒AiMask数据脱敏系统全面覆盖30余种数据库及多种文件格式,为开发、测试等场景提供可靠数据安全保障。平台专为应对大模型数据需求,创新推出语料脱敏模块,支持CSV、DOC、TXT等文件批量处理,通过“规则+NER”双引擎精准识别敏感信息,并运用高仿真与业务属性保留算法,确保姓名、证件、机构等关键信息脱敏后仍具备可用性与可追溯性。基于十年技术积淀,AiMask实现了从结构化数据到非结构化语料、从静态到智能脱敏的全面演进,助力企业在合规前提下充分释放数据价值,为AI训练构建安全可靠的数据基石。
2025-10-09
2025-10-01
2025-09-30
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...