近日,国家数据局官网发布了《高质量数据集典型案例名单》,总共包含“具有推广示范价值的104个典型案例”,其中涵盖医疗卫生、智能能源、文化旅游等重点领域,以及具身智能、低空经济、生物制造等创新领域。(文末附《人工智能高质量数据集建设指南》下载链接)
高质量数据集典型案例名单
中国信通院联合清华大学、中国人工智能产业发展联盟数据委员会发布《人工智能高质量数据集建设指南》,旨在为业界建设高质量数据集提供有实操价值的指导和参考。
该指南从政策、技术、产业三个维度深入剖析了高质量数据集建设的背景,系统梳理了高质量数据集的定义、特征、分类、建设主体以及面临的“三大建设难点”。在此基础上,提出了人工智能数据工程的“五大核心要素”,并制定了企业建设高质量数据集的“三步走”战略。同时,对高质量数据集建设的核心技术进行了深入分析,并通过科学、通信、交通、铁塔、医疗、文化等多个领域的实践案例展示了高质量数据集建设的成效。最后,从工程能力、技术创新、质量评估、版权合规、基础制度创新等方面对高质量数据集建设的未来趋势进行了展望,并向政府部门和企业机构提出了相关建议,为推动高质量数据集建设提供了有力的支撑。
报告主要内容
1. 高质量数据集的定义与顶层设计。高质量数据集是指用于训练、验证和优化人工智能大模型而收集、整理、标注形成的覆盖行业核心专业知识和生产经营活动信息的数据资源集合。国家部委、地方政府加力出台人工智能和数据要素相关政策,通过试点示范、工程项目、资金补贴等多种形式推动高质量数据集的建设、流通和开发应用。
2. 高质量数据集的特征与挑战。高质量数据集具有高价值应用、高知识密度、高技术含量的“三高”特征。当前,高质量数据集建设正处于探索阶段,主要面临目标定位模糊、实施路径碎片化与技术底座薄弱三重挑战。
3. 人工智能数据工程的核心要素。面向人工智能的数据工程核心旨在提升模型数据集管理与运营效率、提升数据集质量和数量、充分挖掘数据资源价值、保障模型数据安全可信,涵盖管理体系、开发维护、质量控制、资源运营、合规可信等五大核心要素(参考行业标准《大模型数据集开发管理能力分级及评估方法》),涵盖5个一级能力、21个二级能力和253项能力子项。
来源:中国信通院
4. 高质量数据集建设“三步走”战略。首先,开展数据集体系规划,构建高质量数据集认知框架。其次,推动数据集工程建设,打造高质量数据集认知框架。最后,强化数据集质量检测,建立高质量数据集全流程管控机制。
来源:中国信通院
5. 高质量数据集的建设流程。高质量数据集建设需经历数据设计和采集、治理、标注、质检、运营等流程类似石油“炼化”过程中的勘采、粗炼、精炼、质检、运营等流程,推动原始数据资源迈向智能应用。
6. 对高质量数据集建设的展望。随着人工智能大模型应用从初步探索迈向更为复杂、智能的高阶阶段,对高质量数据集的规模、多样性、时效性以及处理速度的要求将会快速增长。展望未来,数据集工程、技术创新、质量评估、版权合规以及基础制度建设是推进人工智能高质量数据集建设的关键。
报告目录
关注本公众号(数据学堂),后台回复“高质量数据集”,即可下载《人工智能高质量数据集建设指南》。
<END>
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……




还没有评论,来说两句吧...