AI顶会NeurIPS接收安恒信息与浙大合作研究成果

近期，安恒信息在数据安全领域的敏感数据识别相关研究成果《DataSIR: A Benchmark Dataset for Sensitive Information Recognition》被AI顶会NeurIPS 2025接收。该研究由莫凡（第一作者），刘博（通讯作者），范渊等人和浙江大学合作完成。

神经信息处理系统大会（NIPS，NeurIPS）是由连接学派神经网络学者于1987年在加拿大创办的国际学术会议，现由NIPS基金会主办。该会议固定在每年12月举行，被中国计算机学会列为人工智能领域A类会议，在谷歌学术全球影响力排名中位列第7位（h5指数337），并与ICML、ICLR并称为人工智能领域三大“难度最大，水平最高，影响力最强的”顶级会议。论文录用难度大，2025年有效投稿的录用率不足25%。

论文介绍

随着人工智能的快速发展，训练数据需求激增，数据泄露风险也在不断加剧。尽管泄露事件频发、成本高企，但现有的数据泄露防护技术仍难以跟上规避手段的演化，敏感信息识别（SIR）模型面临越来越大的挑战。现有数据集在对抗性变换覆盖上存在不足，限制了鲁棒敏感信息识别系统的评估与发展。

针对这一问题，我们提出了DataSIR——首个专门面向敏感数据识别的对抗性基准数据集。我们基于多项国际法规，构建了26类敏感数据类别，收集10万+原始样本，并结合真实世界中的规避策略，设计了21种格式变换方法，将数据集扩展至160万+样本，充分模拟复杂的对抗性场景。

我们进一步使用多种传统NLP模型和大型语言模型（LLMs）开展了系统评测，并设计不同提示策略，验证了先验知识对识别准确率的影响。实验结果显示，DataSIR能够有效区分不同算法性能，为行业提供了一个覆盖更全面、挑战更真实的评测基准。

凭借丰富的类别、多样的格式与严谨的设计，DataSIR不仅能够为学界和工业界提供权威的对抗性评测标准，更将助力下一代敏感信息识别技术的迭代与突破。

成果应用

安恒信息率先关注到这个问题，并将其相关的能力集成到多个数据安全产品中（如AiSort数据分类分级、API风险监测、AiMask数据脱敏等产品），极大地提升了产品的敏感数据识别能力，构建了坚实的数据安全防护屏障。

AiSort数据分类分级——AI赋能数据分类分级2.0

从1.0时代AI仅赋能单环节数据分类分级，到现在2.0时代实现全流程AI赋能：涵盖3大关键环节：分类分级框架定制、自动生成分类分级结果、分类分级结果核验与调优。本次2.0时代的跨越，大幅提升数据分类分级效率，相比传统人工数据分类分级，2.0时代效率提升60倍。安恒连续3年成为Gartner数据分类分级推荐厂商，并被多个第三方机构评为细分赛道第一。

API风险监测—AI开启API风险监测新时代

传统的API风险监测方案通过正则匹配识别API业务属性和传输的敏感数据，存在静态规则限制。AI则正在驱动API风险监测体系的重塑，覆盖智能研判API资产、自动解读API属性、智能识别敏感数据、智能研判API风险等方面。安恒信息API风险监测，凭借95%的准确识别率与10倍的运营效率跃升，开启API风险监测的智能新时代。基于此，安恒信息入选Gartner中国API管理代表厂商。

AiMask数据脱敏——助力大模型语料脱敏

安恒AiMask数据脱敏系统全面覆盖30余种数据库及多种文件格式，为开发、测试等场景提供可靠数据安全保障。平台专为应对大模型数据需求，创新推出语料脱敏模块，支持CSV、DOC、TXT等文件批量处理，通过“规则+NER”双引擎精准识别敏感信息，并运用高仿真与业务属性保留算法，确保姓名、证件、机构等关键信息脱敏后仍具备可用性与可追溯性。基于十年技术积淀，AiMask实现了从结构化数据到非结构化语料、从静态到智能脱敏的全面演进，助力企业在合规前提下充分释放数据价值，为AI训练构建安全可靠的数据基石。