什么是高质量数据集？如何建设高质量数据集？

一、高质量数据集是什么？

高质量数据集是指具有一定主题，可以标识并可以用于人工智能训练、验证及测试等处理过程的数据形式，并且在完整性、规范性、准确性、均衡性、及时性、一致性、相关性等多个方面都达到了较高标准的数据集合。能够帮助研究人员、工程师和人工智能在开展数据分析、机器学习和模型计算时获得更可靠的结果。

二、为什么需要高质量数据集？

数据集是人工智能“学习”的基础和源泉。从全球开源数据集语种来看，英语是世界上分布最广泛的语言，其开源数据集占比也最高，截至2023年底达到了56.9%；美国、英国等以英语为主的国家为英语开源数据集的积累奠定了良好的基础。

作为世界上使用人数最多的语言之一，中文开源数据集占比仅为5.6%，暴露出中国在数字基础设施建设方面的短板，这与中国在人工智能领域的发展实力和愿景不符。造成国内高质量数据集紧缺的原因是多方面的，包括数据标准和规范的缺失、数据共享和开放程度低、数据处理投入不足等。数据集的紧缺会限制人工智能算法的训练效果，影响模型的准确性和泛化能力。

图表：截至2023年底全球按语言划分的开源数据集百分比（单位：%）

三、如何评估高质量数据集？

根据《面向人工智能的数据集通用评估方法》，面向人工智能应用的数据集质量评估需要遵循科学的评估方法，基于人工智能应用需求与数据集质量目标选取合适的评估指标和相应的评估准则。人工智能数据集的评估主要分为定量、定性以及将前两者有机集合起来进行综合分析的方法。人工智能数据集的质量评估主要包括完整性、规范性、准确性、均衡性、及时性、一致性、相关性和其他等维度。

END

据统计，99%的数据大咖都关注了这个公众号！

👇