数据元件作为数据流通利用六大技术路线之一,可实现数据的安全、高效与规模化流通。本文给出了以数据元件为基础的数据基础设施建设路径,同时指出数据元件可支撑高质量数据集和智能体应用构建,助推数据要素和人工智能产业深度融合。
2024年12月,国家发展改革委、国家数据局、工业和信息化部联合印发《国家数据基础设施建设指引》,明确国家数据基础设施建设的技术路线和实践路径,推动国家数据基础设施形成横向联通、纵向贯通、协调有力的基本格局。数据元件作为国家数据流通利用设施六大技术路线之一,将在首批试点城市先行先试。
数据元件是对数据资源进行清洗治理、加工生产形成的信息密度大、安全属性强、形态稳定、产权清晰、价值释放效率高的数据表征结果。从技术视角看,数据元件是近源数据的信息载体和组织单元,形态包括组态数据元件、模态数据元件和组合态数据元件。从经济视角看,数据元件能够实现原始数据与数据应用的“解耦”,是连接供需两端的数据要素,便于市场化流通和规模化应用。数据元件类似于电子元件,具有标准化和通用化的特点,可以通过科学有效地组合运用形成满足不同需求的应用产品。从安全视角看,数据元件能够实现原始数据与数据应用的有效隔离和全生命周期风险管控,是数据安全管控体系的关键支点,防范了数据泄露风险、滥用风险和篡改风险。数据元件模型如下图所示。
图1 数据元件模型
数据流通利用设施技术路线各有特点,多种路线同步发展,既可以协同解决实际复杂问题,也有利于实现规模化部署和系统化应用。数据元件主要面向安全与大规模的数据加工和流通场景,可实现从数据归集到数据元件加工交易全生命周期的数据要素开发和管控。基于数据要素标准体系和全栈式数据安全防护体系,构建数据金库和数据元件加工交易中心,有序开展数据汇聚治理、数据元件加工、数据元件检测、数据元件流通等数据治理工艺全流程,将原始数据开发为数据元件这种形态稳定、安全属性强的流通标的物。以数据元件及其他数据产品作为数字对象,基于数字对象接口协议和标识解析协议,实现数联网的互联互通和精准寻址。进一步,可结合隐私计算和区块链,在数据空间内进行各类数据的跨域流通和融合计算。基于数场流通利用基础设施底座和管理平台,实现“统一目录标识、统一身份登记、统一接口要求”三统一,最终构成一体化的数据流通利用基础设施。
高质量数据集成为AI应用发展的重要支点。建设高质量数据集旨在将分散、杂乱、碎片化的原始数据,通过归集清洗、加工处理、质量测评和语料管理等环节,加工成高价值、高密度、标准化的数据。基于数据元件构建大模型语料库及智能体应用,可以有效应对中文语料库和高质量数据集匮乏等问题。数据元件具有信息质量高、安全属性强等特性,能够解决大模型训练过程中的数据安全与隐私合规问题,提高数据集的质量和覆盖范围。同时,通过“数据元件—模型训练—场景反馈”的闭环架构,支撑多场景智能体应用构建,推动数据产业和人工智能产业融合发展。
展望未来,数据元件在数据资产价值释放、数据要素互联网、人工智能大模型应用、国际数据跨境流动、数据安全保护等方面将发挥更大作用,为数字经济高质量发展注入新动能。
作者简介:
国丽,中国电子数据产业集团首席科学家,CCF数据治理发展委员会执行委员
点击“阅读原文”,加入CCF。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...