点击蓝字丨关注我们
申请加入数据安全共同体计划,请在本公众号回复“申请表”获取下载链接
为贯彻落实《中华人民共和国数据安全法》《工业和信息化领域数据安全管理办法(试行)》和《工业和信息化部等十六部门关于促进数据安全产业发展的指导意见》,充分挖掘工业和信息化领域数据安全防护典型经验做法,切实增强行业数据安全保障水平,工业和信息化部组织开展了2023年工业和信息化领域数据安全典型案例遴选工作。此次典型案例遴选,按照“以点带面、点面结合”原则,面向工业、电信和互联网领域,征集了数据安全基础共性、数据安全监测分析、数据安全整体设计实施等“四方向、十类型”数据安全典型案例,经过申报推荐、形式审查、专业初审、专家评审和网上公示,在全国300余项申报方案中挖掘出了72项行业广泛认可、企业应用效果良好的典型案例,为指导工信领域数据处理者提高数据安全防护能力,促进数据安全技术、产品和服务产业化应用提供了重要参考。
相关链接:
案例聚焦主营客服业务,构建行业内规模最大的语音、文本等非结构化资产识别和分类分级能力。通过“系统资产+非机构化数据发现能力”全量扫描系统资产数据。使用基于注意力机制的深度神经网络,提升语音与文本转换率。使用基于SOFTMAX神经网络,实现非结构化文本数据中客户敏感信息的智能分类分级,同意建立数据敏感评价机制和实时监测分析引擎,实现敏感数据的有效监管。建立数据资产全景视图,详细展示资产分布、类型等实际情况。
解决了客服领域中非结构化数据难以全面识别、识别速度慢、分类分级准确率低的问题。优化了非结构化数据识别与分类分级过程,结合客户服务行业属性,对非结构化数据进行智能化、精准化、差异化的全面管理,建立自动化敏感信息扫描、识别、更新实时分析引擎,为企业的数据资产安全提供可检测、可防御、可信赖的保护措施。
聚焦非结构化语言数据文本转换、非结构化数据识别与分类分级、非结构化数据差异化管控这三个方面,分别结合深度学习注意力机制,Softmax分类模型、CVSS信息敏感性评价过程,建立客户服务过程中的非结构化数据分类分级与监管,实现非结构化数据全生命周期防护。平台取得省部级以上奖励3项,专利1项,软件著作权4项,实现技术自主可控。
该项目具有广泛的推广性优势,适应多种市场需求,可以提供灵活性、安全性的技术支持,能够在不同规模和行业的客户中进行推广。项目的数据安全性功能和数据分类分级模块具有高度的可定制性,以满足不同需求。同时还支持面向中小型企业的开放模型接口的“云端资源池部署”方式和面向大型企业的全套方案“私有化部署”方式。
申报单位:中移在线服务有限公司
中移在线服务有限公司于2014年10月在河南省洛阳市注册成立,是中国移动通信有限公司设立的聚焦客户服务业务的全资专业子公司,是全球最大的单体呼叫中心,在全球客服行业中客户规模最大、技术水平领先、运营能力突出,入选了国务院国资委国企改革“双百企业”名单,且是该名单中唯一的客户服务企业。
联合申报单位:中国移动通信集团河南有限公司
中国移动通信集团河南有限公司是河南省客户规模最大、服务体系最完善、综合实力最强的全业务基础电信运营商。自成立以来,始终以创建世界一流信息服务科技创新公司为目标,致力于成为全面领先主导运营商、数智化转型一流标杆、数字河南建设领军者,坚持创新驱动发展,加快转型升级步伐,以数字技术注智赋能经济社会高质量发展。
联合申报单位:北京天融信网络安全技术有限公司
北京天融信网络安全技术有限公司作为国内领先的网络安全企业,行业客户覆盖超过100,000家,产品涵盖网络安全、大数据与云服务三大业务领域的业界最全产品体系,是构建覆盖基础网络、工业互联网、物联网、车联网等众多业务场景的综合解决方案的网络安全行业龙头上市企业。
近年来,工信部等上级单位推动各行各业落实数据资产识别、分类分级、差异化防护等工作。为进一步“摸清公司数据家底”,落实上级单位要求,依托中国移动10086海量客服语言数据与真实应用场景,公司充分发挥技术优势,形成了客服领域海量非结构化数据全量、快速、准确识别的解决方案,并严格落实分级化管控举措,全面提升公司数据安全防护水平。
1、整体设计架构
案例聚焦非结构化语言数据文本转换、非结构数据识别与分类分级、非结构化数据差异化管控这三个方面,分别结合深度学习注意力机制,Softmax分类模型、CVSS信息敏感性评价过程,建立客户服务过程非结构化数据分类分级与监管,实现非结构化数据全生命周期防护。
2、建设内容
一是创新性通过建立“系统资产+非结构化数据”发现能力,全量扫描系统资产及数据资产。能力包括数据资源配置、扫描规则配置识别模型动态选取与融合、扫描任务配置及扫描结果查询等功能,通过多线程、短连接等形式,定期对非结构化数据进行抽样取数。
二是创新性使用基于注意力(Attention)机制深度神经网络解决语音与文本转换率低的问题。针对方言问题,采取模型片区融合优化方法,将方言相近的3—5个省共享一个模型,在提高方言数据利用率的同时,提高模型的泛化能力,进一步提升方言省份模型的转写准确率。针对语音转写,采用wenet端到端语音处理等前沿技术,建立conformer_encoder_decoder架构,充分实现基于注意力机制的自回归模型联合解码训练。
三是创新性使用基于Softmax神经网络实现非结构化文本数据中客户敏感信息的智能分类分级。通过开展两次侧重点不同的全量的数据资产与分类分级规则匹配的扫描操作,对非结构化数据的基础信息和抽样样本数据进行资产识别和分类分级规则匹配,保证公司敏感数据资产自动化分类分级和脱敏效果验证。
四是智能分级管控与优化迭代。系统给各单位下发数据资产报备工单,对数据资产进行确认和审核。系统支持对识别结构进行调整和更新,同时也会定期结合调整后的结果对识别规则和模型进行优化和更新,确保数据识别工作长期稳定可靠。
五是数据资产的“动”态分析,及时掌握资产情况。方案建立数据资产台账等分析管理功能,数据资产在识别和分类分级完成后会自动生成数据资产台账,同步根据数据所属部门、系统、资源基本信息、类别和级别等进行筛选和管理,同时生成资产统计分析图,直观掌控系统各部分资产类别、级别的分布和量级等情况。
3、功能特点
一是“全”。本方案自动化进行全量数据资产识别,通过关键字、正则表达式结合机器学习算法等建立敏感数据识别模型,将数据与数据分类分级策略关联,将数据资产和识别规则相匹配,根据识别结果,完成数据分类分级标识,用时快、效率高,二次识别还能对敏感数据是否脱敏做出判断,并在生成的台账中做出标记,能够及时发现未落实脱敏要求的系统数据,提升合规性。
二是“快”。针对移动客服领域多方言语音识别难点,进行核心能力升级,通过引入端到端识别技术,采取基于注意力机制的Conformer Encoder编码器 + CTC&Attention loss损失函数,利用帧级别的CTC loss和label级别attention loss联合训练整个网络,实现对输入语音进行流式实时解码,打造多方言识别融合模型,适配分省多口音识别,提升方言识别效果,助力客服中心智能化服务效果改善。
三是“准”。通过对数据的智能分类与聚合的过程,本方案能够更好地理解和利用非结构化数据,从而提供更高质量的客户服务,同时实时监控和管理客服过程。智能分类过程目前已覆盖全量传统业务流程,支撑海量非结构化音频转写为文本数据及分类分级。
四是“智”。通过敏感信息识别算法和规则,实时监测客服过程中的用户隐私数据、舆情数据,根据识别检测到的数据级别进行分级管控,精细化数据管控措施,进一步防止服务提供过程中的敏感信息泄露或产生舆情风险。
4、性能指标
一是本方案实现单位100%数据资产分布、来源、数量、等级等信息的可视化展示。
二是本方案语音识别实时响应时间达到200ms以内,语音识别引擎单线转写效率达到4.0(即1个单位时间可以处理4个单位时间产生的数据量),转写引擎识别准确率达到95%(业界平均为90%)。
三是本方案目前已覆盖100%业务流程,日均调用量达到1500万次以上,非结构化敏感数据分类分级准确率达90%以上(原来为75%)。
四是本方案客户服务质检准确率及检出率均提升至90%。
目前客服领域企业普遍缺乏非结构化数据精准识别能力,难以实现数据资产全面梳理。该项目对企业内部的非结构化数据资产能够做到主动识别,全面发现,将被动的资产管理模式转变为主动持续完善的自动化资产梳理能力,实现企业非结构化数据资产全面清晰掌握,进而完善技术防护能力,实现非结构化数据精细化管理。
公司不断提升客服技术能力和运营经验,聚焦政府、能源等重点民生行业,主动响应、挖掘和满足其数字化转型需求,为各行业提供成熟稳定的数据安全产品。目前国家大力发展数字经济,促进数字经济和实体经济深度融合,该方案可为合作伙伴提供智能质检、舆情监测等服务能力,目前合作伙伴包括多个省市(乌鲁木齐、成都等)12345政务服务热线、国家医保局、中国邮政、中国石油、中国石化等,切实践行央企的政治责任和社会责任。
12.
13.
14.
15.
16.
13.
14.
15.
16.
17.
数据安全共同体计划
(data security community)
“数据安全共同体计划”为了促进《数据安全法》《个人信息保护法》落地实施,推动数据开发利用和数据安全领域的技术推广和产业创新,致力于促进数据安全产业链各环节的交流与合作,推动数据安全政策、技术、人才多要素良性互动,构建数据安全产业生态共同体。
咨询电话:
曹京 (010) 5884 6840
解伯延 18631643906
联系人邮箱:[email protected]
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...