数据质量问题的现状
据互联网数据中心(IDC)最新预测,中国数据量规模将从2022的23.88ZB增长至2027年的76.6ZB,年均增长速度为全球第一,各大金融机构的数据存储呈现爆炸性增长态势。然则金融资产机构日常积累的海量客户信息、交易记录、风险指标等业务数据,数据质量参差不齐,主要体现为:
数据不准确:数据录入失真、系统更新滞后等,导致数据与实际当下业务情况脱节,影响信息统计和战略决策的准确性。 数据不完整:部分数据字段缺失,无法完整呈现业务全貌,进而影响后续业务开展。 数据孤岛:机构各经营单位因业务、流程差异而导致相互数据存在差异,系统内各数据库接口不一、融合标准难达成,造成金融数据整合分析困难重重,干扰综合决策。 数据冗余:系统间重复调用、存储系统或不同数据使用者反复存储数据导致大量重复、无效数据堆积,增加数据处理成本与难度,拖慢数据使用效率,影响数据分析效率。
问题产生的原因
应用程序设计问题:数据生成阶段受此影响最大,约90%的数据质量问题在此滋生。应用程序分散且缺乏前端输入校验,影响数据的及时性、有效性,且数据系统和监管报送系统设计初衷多为记录交易和传输数据,未充分考虑数据分析,导致数据质量问题频现。所以数据管理者需与应用运维者紧密协作,项目经理更要在系统设计和数据库构建中引导正确的数据输入,从源头把控数据质量。
数据库设计不完善:该因素作用于数据生成与存储阶段。在当下金融机构的数据结构建设中,关系数据库依旧占据着主流地位,是存储和管理数据的首选方式。以著名的 “三范式” 为例,它作为针对关系型数据库设计所制定的一组规范性要求,就如同交通规则对于保障道路交通安全的重要性一样,遵循不低于三范式的设计标准,能够在很大程度上保障数据的一致性和准确性,进而为提升数据质量筑牢根基。如,第一范式要求字段不可分割,违反则易丢失分析维度;第二范式强调表须有主键,利于防止重复数据,第三范式不能传递依赖关系。低于三范式的设计,会损害数据的一致性和准确性。
系统集成问题:主要作用于数据提取与预处理环节。在数据管理者借助 ETL、ESB 等方式从数据湖、数据仓库中移动数据时,若提取不当、预处理不足,会影响数据有效性和及时性,如 ETL 过程中转换规则出错,会使数据出现格式错乱等问题,直接影响数据分析效果。
缺少数据质量制度、流程和标准:这贯穿数据从生成到报告的全阶段。制度和管理办法会规范数据管理的边界,还会明确不同场景中的第一数据责任人,以及高效管理数据的规则,而流程文件和标准会指导数据管理的实践。规范的数据流程和标准则是数据质量的保证,比如数据建模流程和参考数据标准,都可以避免许多数据质量的问题。不过,制度的制定也并非一蹴而就、一劳永逸,而是需要动态更新以响应组织和业务不断增长变化的数据需求。
业务流程问题:该问题作用于数据生成和分析阶段,较为隐蔽,常超出信息技术部门的管理范畴,需要业务部门和信息技术部门建立敏捷的沟通机制、协作解决。例如业务流程中不合理的数据采集环节,会引发数据质量问题。
针对以上问题、成因的应对策略
建立数据质量管理体系:金融资产机构要构建完善的数据质量体系,涵盖制度、流程和标准,明确质量目标与指标,实现数据质量管理的规范化、制度化目标,从整体把控数据质量。 加强数据源管理:统一管理和规范数据源,保障数据格式、标准和质量一致,同时强化与外部合作的数据共享交换,提升数据可用性与准确性。
优化系统架构:对现有业务系统升级优化,增强其稳定性与可靠性,强化系统间数据交互共享能力,确保数据及时性与一致性,满足各业务环节需求。
加强人员培训和管理:定期开展数据质量管理培训与考核,提升员工重视程度与操作技能,建立激励和问责机制,调动员工积极性,营造良好管理氛围。
利用技术手段提升数据质量:运用先进的数据清洗、校验和整合技术,提高数据准确性与完整性,借助大数据和人工智能挖掘分析数据,及时发现并改进潜在质量问题。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...