前沿 | 数据资产管理技术应用之数据质量和开发管理实践 - 新鲜讯息

扫码订阅《中国信息安全》

邮发代号 2-786

征订热线：010-82341063

文 | 中国太平洋保险（集团）股份有限公司数智研究院林璞姜博通冯亮陈志远

数字化转型已逐渐成为金融领域重要的发展趋势。根据中国银保监会的指导方针，银行业和保险业应在2025年前取得数字化转型工作明显成效，并广泛普及数字化金融产品和服务方式，同时有秩序地实践基于数据资产和数字化技术的金融创新。

数据作为关键的生产要素，其良好的管理是释放数据价值的基础。经过多年的发展，数据资产管理已进入深化落地阶段。常见的数据资产管理包括数据模型管理、数据标准管理、数据质量管理、主数据管理、数据安全管理、元数据管理、数据开发管理、数据资产流通、数据价值评估和数据资产运营等环节。鉴于篇幅有限，本文将详细介绍太保集团在数据质量管理和数据开发管理方面的应用实践。

数据质量管理中通过AI技术提升数据资产质量的探索实践

数据质量是指在不同业务背景下，数据在支撑业务运行、辅助管理决策等方面的满足程度，是确保数据应用效果的关键基础。数据质量管理是针对可能出现在数据产生、获取、存储、共享、维护和应用等各个阶段的数据质量问题，进行的一系列管理活动，包括识别、度量、监控、预警和改进等。

在太保集团的数据质量管理实践中，存在的核心痛点是数据团队提前发现质量问题的能力相对薄弱。为了解决这个问题，太保集团数据团队引入数据质量校验技术，使用AI升级质量校验能力，最终建立自动化数据质量校验机制，从而持续改善数据质量管理的效果、提高管理效率。

1.问题和痛点

（1）提前发现质量问题的能力相对薄弱。在当前的数据开发流程中，有相关的数据测试环节，但在发布上线后的真实数据生产链路中，数据质量校验检测覆盖度不够全面，很难提前发现并解决数据质量问题。

（2）业务多次反馈数据质量问题。数据团队每年因数据质量问题收到的业务反馈多达几十次，影响数据资产的可信度和价值发挥。

2.核心方案

（1）引入数据质量校验技术。为了能够提前发现数据质量问题，在数据生产加工链路上新增质量校验卡点，配置数据需要满足的质量校验规则，当数据生成时，系统将自动启动校验程序，一旦发现质量问题，立即发出警报，及时阻断异常数据对下游的影响，保障数据准确性和完整性（如图1所示）。质量校验规则可分为技术性规则和业务性规则，常见的技术性规则如数据主键一致性、关键字段不为空、数据记录数波动合理性等。业务性规则因行业和业务场景不同而有所差异。例如，在保险理赔环节中，总报案数应大于等于总立案数。

图1 数据质量校验流程图

（2）AI技术升级质量校验能力。在实施数据质量检验机制的过程中，为确保数据质量的准确性，需要配置几十万条检验规则，以达到对重要数据的全面检测。为确保项目的顺利推进，减少人工操作并提高工作效率，项目组运用AI技术实现了质量检验规则的批量自动生成。下文以数据记录数波动合理性规则为例，详细讲解实现细节（如图2所示）。

图2 AI预测数据波动流程图

收集表的波动信息：借助技术元数据或成熟命令行工具，可采集并存储表的统计信息，例如表的行数、字段数据类型、字段取值分布、运行时长及产出时间等，方便后续机器学习的算法训练和预测。

使用机器学习算法训练模型：采用无监督机器学习算法（包括时序模型、神经网络算法等）对收集的波动信息进行训练，训练的波动信息时间范围越广，相关算法的准确率越高。在机器学习算法训练过程中，我们将综合考虑业务特征、数据特征、时间特征等多方面因素，以提高训练模型的准确性。

模型部署和应用：在算法模型训练之后建立在线的数据波动阈值预测能力，并基于历史波动信息预测下一阶段的数据波动阈值。

模型迭代更新：在机器学习算法预测阈值后，应将数据留存并记录被预测表的实际数据波动信息。这些数据将用于定期迭代算法模型。

3.实践成果

（1）建立自动化数据质量校验机制。建立了“圈选重点保障数据—自动生成校验规则—设置生产链路卡点—建立运维值班机制—处理报警信息—复盘问题，优化规则”的系统化、自动化数据质量管理闭环能力，完成对数据生产加工全链路的质量校验管控，进而提升数据资产的可用性，加速释放数据资产的应用价值。

（2）数据质量问题明显改善。相较于过去依赖人工校验数据质量的方式，引入AI技术之后，配置质量校验规则和处理问题的成本下降了95%，重点数据质量校验覆盖度超过96%，数据问题的误报率降低了82%，月均主动拦截问题1700次，业务反馈数据质量问题量下降70%。

数据开发管理中计算存储优化治理实践

数据开发指的是将原始数据转化为数据资产的一系列加工处理过程。数据开发管理是指通过制定开发规范和管理机制，面向数据、程序、任务等处理对象，对开发过程进行监控、诊断、优化与管控，使数据资产的开发过程标准化，开发逻辑清晰化，增强开发任务的复用性，提升任务代码的运行效率，从而提高交付质量，降低数据开发的成本。

在太保集团的数据开发管理实践中，为了解决大量无效数据和低效计算任务带来的问题，太保数据中台团队从升级技术能力和建立跨部门协同机制两方面入手，探索有效解决方案，最终成功建立了数据计算存储资源治理的长效机制，从而实现数据处理过程中持续降本增效的目标。

1.问题和痛点

（1）海量数据带来巨大成本。随着企业数字化转型的推进，数据存储规模不断扩大，给企业带来巨大的成本压力。目前，太保数据平台的总存储规模已经高达几十PB，这给集群机器成本和运维管理带来了很大的挑战。以产险子公司为例，2023年3月份，数据平台存储资源用量已经超过了安全水位，集群稳定性和业务可用性都存在隐患，需要及时进行治理。

（2）存在大量无效数据。由于缺乏有效的管理和治理措施，大量低价值、重复、未使用的数据混入了数据集中，占用了宝贵的计算和存储资源。以太保集团数据中台为例，总表数超过180万张，但实际上只有27.6%的数据被业务使用，大量无效数据给数据资产管理带来了巨大的挑战。

（3）存在低效计算任务。随着大数据技术的持续发展，大数据平台的使用门槛已逐步降低。目前仅需具备基本的SQL技能，即可进行数据处理。然而，由于部分开发人员对技术底层了解有限，可能会出现一些低效、慢速甚至暴力查询的SQL语句，对大数据平台运行的稳定性构成隐患。

2.核心方案

（1）异常的定义和识别。如何在海量数据中寻找到异常的资源使用情况，这是我们所面临的主要技术难题。项目组深入剖析保险业务用数场景，结合大数据计算和存储资源治理领域的前沿技术，自主研发了五大类、共计30个专家识别规则，并基于这些识别规则，成功识别了超过300多万资源使用异常项，为后续的治理工作提供了明确的目标和方向。

（2）跨部门协同机制。为解决传统治理工作中可能出现的职责不清、组织协同困难、治理效果不明显等问题，太保集团建立了由企业高层支持、数据管理部牵头、数智研究院作为专家智库、太保科技提供技术支持、各子公司负责治理实施的多层治理组织架构（如图3所示），为大数据计算存储资源治理提供坚实的组织保障。

图3 数据优化治理组织架构

3.实践成果

（1）建立数据计算存储优化治理长效机制。建立了“异常规则和算法设计—元数据获取和更新—异常项自动捕获—治理建议自动生成—异常项系统分发—异常项确认—异常项治理—治理效果量化评估”的系统化、自动化治理闭环能力（如图4所示），同时依托相应管理制度、考核办法，为数据资产管理工作注入了长效动力。

图4 数据计算存储优化治理闭环

（2）有效控制数据增长，节省数据成本。通过无效数据专项治理，成功删除超过100万张无效表，清除18PB冗余数据存储，并将数据存储增长率降低50%，节省成本约2200万元/年。

总结

本文重点阐述了太保集团在数据质量管理和数据开发管理方面的应用实践，以期为金融业的数据资产管理提供有益的参考和启示。同时，随着数字化转型的加速推进，未来金融业的数据资产管理将变得更加重要和紧迫。因此，我们需要不断地探索和创新，以更好地释放数据价值，推动金融业的数字化转型和发展。

（来源：金融电子化）

《中国信息安全》杂志倾力推荐

“企业成长计划”

点击下图了解详情