高质量数据集的建设是一个覆盖数据集全生命周期的系统工程,业界通常存在两种典型的建设模式。第一种模式是“场景驱动”的建设模式。以明确的业务需求或场景为起点,通过“需求拆解-数据设计-数据采集-数据处理-数据质量检测-数据运营”的闭环,确保数据集对场景的智能化水平提升,避免“数据冗余”或“数据缺失”。第二种模式是“数据驱动”的建设模式。以已积累的大量、多源异构数据为基础,通过主动的数据探索、关联分析与价值挖掘,反向发现潜在的业务需求或优化方向。
第一种模式强调“先有需求或场景,再构建对应的数据支撑”,是目标导向型建设的典型代表。这种建设模式的优势是数据质量高、针对性强,能够有效支撑特定任务的模型训练和评估,易于形成闭环反馈机制,通过模型效果反向优化数据采集和处理流程。适用于垂直行业应用、科研实验型项目等场景。例如,在开发一个糖尿病视网膜病变筛查系统时,首先明确诊断目标和模型性能指标,再据此收集具有代表性的医学图像,并由专业医生开展标注,从而构建出具备临床价值的高质量数据集。
第二种模式强调“先有数据资产,再通过数据驱动需求升级”,是过程导向型建设的典型代表。这种建设模式的优势是能快速形成大规模数据资产,为后续模型探索提供丰富素材,一般更适合通用大模型、预训练模型等需要海量多样化数据的任务。适用于数据基础好但应用需求尚未完全明确的场景,包括通用人工智能模型(如大语言模型、多模态模型)训练、数据要素市场建设、政府开放数据平台等场景。
总的来说,“需求先于数据”是目标明确的精准建设,适用于业务方向清晰、需快速落地的场景;“数据先于需求”是数据驱动的价值挖掘,适用于数据积累丰富、探索新增长点的场景。在实际建设过程中,两种模式相互交替、动态互补。一方面,以“场景驱动”的方式快速构建基础数据集,满足当前业务场景需求;另一方面,通过“数据驱动”的探索,挖掘数据中的潜在价值,为需求的进一步升级提供支持。最终形成了“场景牵引、数据赋能、价值反哺”的螺旋式发展动态。
为解决高质量数据集建设方法论缺失的问题,中国信通院联合40多家单位编制技术标准《人工智能数据工程能力要求》,涵盖AI数据的研发、交付、运维和运营等环节,涉及AI数据采集、AI数据处理、AI数据标注、AI数据合成、AI数据增强等多种技术能力,同时对全链路的数据质量和合规性管理提出了标准化规范。
依托此标准和业界实践经验,高质量数据集建设需关注研发管理、交付管理、运维管理、运营管理4大核心环节。这些环节构成了数据集从无到有、持续优化的闭环。在具体的实施过程中,各环节根据不同业务场景和建设需求顺序可调整,也可选择不执行。与此同时,高质量数据集建设的顺利推行,离不开相应技术工具的支撑。其中关键的7项技术能力,包括数据采集、数据处理、数据管理、数据标注、数据合成、数据质检、数据服务运营等技术,这些技术能力可以集成在一个或多个技术工具中。基于这些技术工具可以为高质量数据集的开发和运营提供完善的支撑。
图 2 高质量数据集建设核心环节
研发管理是对数据集的生成流程进行管控,覆盖需求管理、设计管理和数据加工三个环节。需求管理是通过精准捕捉、分析和控制数据需求,确保数据集建设与AI模型目标严格对齐,即明确人工智能团队和业务部门对数据集有哪些需求,规范化需求的描述,收集需求并对需求进行分析,确认其优先级和合理性。设计管理是构建数据集标准、质量、安全、合规、采集、标注、存储的规范体系,先立规矩再开展具体的开发行为。数据加工管理是梳理数据集加工的整体流程(包括数据采集、预处理、标注、增强、生成等),明确对应的技术能力和管理要求。
交付管理是面向数据集的交付过程开展管控活动,主要有测试管理和发布管理两个环节。数据开发完成后需要对标注质量、数据集质量以及数据的伦理和合规性进行全方位测试,以保证开发完成的数据符合合规性、数据质量、AI场景下的可用性等要求。测试管理是对数据集上线前的质量进行把关,开展质量和合规性的验证,包括标注测试、质量验证、伦理和合规性检测等。发布管理是建立发布体系(包含发布审批、API/接口管理、数据集管理等)将经过验证的数据集安全、高效、规范地转化为生产级服务,并对发布后的数据集版本变更进行管理,实现规范化记录、追踪和控制,保障数据在长期演化和协作过程中产生的可追溯性、一致性和可复现性问题。
运维管理是关注数据集的日常监控和维护,对过程中涉及的数据、计算、存储资源进行管理。其中监控管理需要对数据集质量、系统性能、安全合规等方向建立监控指标,开展日常的监控和告警活动,并开展应急处置。资源管理需要对数据集进行数据资源盘点和管理,对过程中涉及的计算和存储资源进行管控。数据资源盘点是摸清家底、激活价值的基础性治理,通过系统化梳理数据资产目录,破除“数据黑盒”状态。计算资源管理核心在于平衡效能与成本,通过优化任务调度策略、资源分配规则与弹性伸缩机制,在保证任务的前提下最大化集群利用率。存储资源管理是在成本、性能、可靠性三角中寻求平衡,通过分级存储策略、生命周期规则、压缩优化技术等实现存储成本的精细化控制。
运营活动关注数据集在用户端的使用情况,衡量投入产出的收益,关注数据集长期的质量提升。数据集运营旨在为用户提供数据探索和分析的入口,提供评价和持续迭代优化的机制,包括提供数据探索入口、提供数据集持续迭代优化的机制、提供数据集的探索分析工具等。成本管理涉及人力成本、存算资源成本和技术工具成本管理,核心在于设计成本的计算方法、预算制定、成本控制方法、内部结算方法等。质量管理、安全管理和隐私合规管理旨在提供一套持续的问题监测、报告、处理的机制和应急预案。
本文节选自大数据技术标准推进委员会在“2025数据智能大会”上发布的《高质量数据集实践指南(1.0)》。
报告介绍及全文下载链接如下:
中国信通院云计算与大数据研究所深入开展高质量数据集的质量评估、数据集建设、人工智能数据工程、数据标注平台、合成数据等相关的理论研究、标准规范、评估测试等工作,提供全面的建设咨询规划服务。愿会同行业各方凝聚共识、形成合力,共同推进高质量数据集建设,推动数据要素更好赋能经济社会高质量发展。
联系方式:
中国信通院云大所
白玉真
18810275013(微信同号)
中国通信标准化协会大数据技术标准推进委员会(CCSA TC601,简称:数标委/BDC),旨在凝聚产业链各个环节,识别和解决大数据发展面临的重大问题,开展大数据技术、数据资产管理、数据共享与流通、数据安全等共性基础标准研究,以标准推进工作为纽带,推动大数据与实体经济深度融合。欢迎加入我们的行列!
入会咨询:白老师 13520285502
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……



 
		 
		 
		 
		

还没有评论,来说两句吧...