Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;white-space: normal;background-color: rgb(255, 255, 255);visibility: visible;line-height: 2em;margin-bottom: 16px;box-sizing: border-box !important;overflow-wrap: break-word !important;'>4、迁移项目,这个出现在特定老项目终止需要新项目接管的情况下,没有数据流动映射表,就会大量花时间去整理,也很难保证迁移的完整性和正确性。

5、自服务分析,数据分析团队为了确定数据可信程度,那么数据的来源是数据可信的重要依据。

数据血缘系统的构建和维护是一个较重的系统工程,笔者认为其是数据治理工作中的流沙之地,不小心会陷入这个坑之中,尤其是技术完美人格类型的负责人,这是因为数据血缘的工作需要考虑的因素很多。

为了最大程度降低项目失败的风险,我们需要考虑数据血缘的服务用户对象,确定业务方面和技术方面的血缘优先,需要考虑到细节程度,覆盖率,变化频率,同时还要考虑人员流动,组织部门,技术架构等情况,制定最适合我们自己的策略。

数据血缘的收集方法主要有以下几种:

1、自动解析

自动解析当前主要的收集方法,具体就是解析SQL语句,存储过程,ETL过程等文件。因为复杂代码和应用环境等原因,根据国际厂商的经验,自动解析可以覆盖到企业数据的70-95%,目前无法做到100%,因此患有技术洁癖的负责人容易犯下这个错误,即追求极高的覆盖率。


2、系统跟踪
这个方法就是通过数据加工流动过程中,加工主体工具负责发送数据映射,这样做的极大好处是收集精准,及时,细粒度可支持,不过限制就是不是每个工具都可以集成。这种方法一般鉴于统一的加工平台,比如Informatica可以管理自己的全数据血缘周期。

3、机器学习方法

这个方法是基于数据集之间的依赖关系,计算数据的相似度。这个方法的好处是对工具和业务没有依赖,缺点准确率需要人工确认,一般可以做到3-8的数据可以分析发现。

4、手工的收集
在整个项目中,一般有5%是需要手工来做的。



目前的数据血缘大多是基于技术的梳理,一般服务技术人员的需求。随着数据服务走向前台,服务业务分析和CDO的业务数据血缘,目前已经有相关产品,通过数据的语义分析,将技术元数据映射到业务元数据上,将血缘以业务流程方式发布共享出来,辅助商务决策,这是未来的发展方向之一。

据统计,99%的数据大咖都关注了这个公众号
👇
相关文章推荐:







数据治理:聊聊数据血缘!


推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
宙飒天下网

相关阅读

发表评论

表情:
验证码
评论列表 (暂无评论,629人围观)

还没有评论,来说两句吧...

目录[+]

取消
微信二维码
微信二维码
支付宝二维码