点击蓝字,关注我们
全文共 10627 个字,建议阅读 18 分钟
一.数据治理框架
数据集成数据集成用来完成数据入湖动作,不是简单的数据搬家,而是按照一定的方法论进行数据备份。数据入湖的前提条件是满足6项数据标准,包括:明确数据Owner、发布数据标准、定义数据密级、明确数据源、数据质量评估、元数据注册。此标准由数据代表在入湖前完成梳理并在数据治理平台上进行资产注册。
数据标准为数据开发和设计工作提供核心参考,同时也通过数据开发实现数据标准化落地。数据标准为数据应用提供“一致的语言”;数据标准为主数据管理提供主数据定义的基准,数据标准也是数据质量管理策略设计、数据质量规则制定的核心依据;数据标准所定义的密级分类和责任主体,为数据安全管理提供依据;数据标准也是数据资产管理重要输入。
二. 数据治理组织框架
数据治理委员会:由数据治理负责人、数据治理专家和数据架构专家团组成,面向企业进行数据治理工作的统筹并提供工作指导,在整个企业范围定期沟通数据治理工作,形成数据质量精细化管控文化。根据数据治理领导组的愿景和长期目标,建立和管理数据治理流程、阶段目标和计划,设计和维护数据治理方法、总则、工具和平台,协助各数据领域工作组实施数据治理工作,对整体数据治理工作进行度量和汇报,并对跨领域的数据治理问题和争议进行解决和决策。
各领域数据治理工作组:在各领域数据范围内进行数据治理的工作,依据数据治理委员会制定的数据治理方法和总则,制定本领域数据治理目标和工作计划,负责领域数据资产的看护,维护更新相应数据标准和及相关元数据,设计本领域数据度量和规则,监控收集数据质量问题并持续改进提升,主动升级数据相关问题。最终完成领域内数据资产的看护,并支撑数据治理目标的达成。
数据Owner (Data Owners):数据Owner是领域数据治理工作的责任人。
制定本领域数据治理的目标,工作计划和执行优先级。
建立数据治理责任机制,将本领域的数据治理工作分解到工作组成员,并跟进及管理工作组工作。
设计数据质量规格,承接数据需求,对数据问题及争议进行裁决。
建设和维护本领域信息架构。
建立和推动领域数据文化和氛围。
数据代表 (Data Representatives):数据代表是领域数据治理工作的专家带头人。
深刻理解数据工作的目标、方法、规则、工具,并通过识别关键业务流程和IT系统,对本领域数据治理的路标和工作计划进行细化并排序,最终管理执行。
作为本领域数据治理专家,管理并解决问题和争议,必要时提交数据Owner进行裁决。
对业务环节数据的完整性、及时性、准确性、一致性、唯一性、有效性负责,确保行为即记录,记录即数据,并依据数据质量规格对本领域数据进行度量和报告。
落实本领域信息架构的建设和遵从,负责本领域数据资产的看护,维护相应数据标准和数据目录并更新发布。
承接上下游数据需求,并主动根据领域内应用场景和业务需求识别数据需求,对需求的实现进行推动和管理。
数据管家 (Data Stewards):数据管家是领域数据治理工作的协助者。确保领域治理工作的流程和内容规范,符合数据治理要求、协助数据代表进行问题跟踪和解决、梳理、维护并更新领域数据元数据(业务对象、数据标准、数据模型)、推广和维护数据治理工具和平台在本领域的应用。
三. 数据治理度量评论体系
3.1 数据治理实施方法论
两个层面的数据治理度量评估工具
3.2 数据治理度量维度
3.3 数据治理度量评分规则
级别3是明确定义级别,处于可改进状态,已经形成了主动治理的流程和正式一致的数据治理方法。
级别4是量化管理级别,已经步入适宜匹配状态,贯穿组织采用的正式一致的数据治理方法都是可量化管控的。
四. DAYU方法论产品落地
DAYU数据治理方法论已经在华为云云服务数据治理中心DataArts Studio上落地实现,包括流程落地和功能落地。
最佳实践: 数据治理中心-DataArts Studio
一. 什么是数据治理中心DataArts Studio
1.1 企业数字化转型面临的挑战
数据治理的挑战
缺乏企业数据体系标准和数据规范定义的方法论,数据语言不统一。
缺乏技术元数据与业务元数据的关联,数据读不懂。
数据运营效率低,业务环境的快速变化带来大量多样化的数据分析报表需求,因为缺乏高效的数据运营工具平台,数据开发周期长、效率低,不能满足业务运营决策人员的诉求。
数据运营成本高,数据未服务化,导致数据拷贝多、数据口径不一致,同时数据重复开发,造成资源浪费。
数据创新的挑战
企业内部存在大量数据孤岛,导致数据不共享、不流通,无法实现跨领域的数据分析与数据创新。
数据的应用还停留在数据分析报表阶段,缺乏基于数据反哺业务推动业务创新的解决方案。
1.2 什么是DataArts Studio?
如图所示,DataArts Studio基于数据湖底座,提供数据集成、开发、治理、开放等能力。DataArts Studio支持对接所有华为云的数据湖与数据库云服务作为数据湖底座,例如MRS Hive、数据仓库服务DWS等,也支持对接企业传统数据仓库,例如Oracle、Greenplum等。
管理中心提供DataArts Studio数据连接管理的能力,将DataArts Studio与数据湖底座进行对接,用于数据开发与数据治理等活动。
数据集成数据集成提供20+简单易用的迁移能力和多种数据源到数据湖的集成能力,全向导式配置和管理,支持单表、整库、增量、周期性数据集成。
数据架构作为数据治理的一个核心模块,承担数据治理过程中的数据加工并业务化的功能,提供智能数据规划、自定义主题数据模型、统一数据标准、可视化数据建模、标注数据标签等功能,有利于改善数据质量,有效支撑经营决策。
数据开发大数据开发环境,降低用户使用大数据的门槛,帮助用户快速构建大数据处理中心。支持数据建模、数据集成、脚本开发、工作流编排等操作,轻松完成整个数据的处理分析流程。
数据质量数据全生命周期管控,数据处理全流程质量监控,异常事件实时通知。
数据目录提供企业级的元数据管理,厘清信息资产。通过数据地图,实现数据血缘和数据全景可视,提供数据智能搜索和运营监控。
数据服务数据服务定位于标准化的数据服务平台,提供一站式数据服务开发、测试部署能力,实现数据服务敏捷响应,降低数据获取难度,提升数据消费体验和效率,最终实现数据资产的变现。
数据安全数据安全为数据治理中心提供数据生命周期内统一的数据使用保护能力。通过敏感数据识别、分级分类、隐私保护、资源权限控制、数据加密传输、加密存储、数据风险识别等措施,帮助用户建立安全预警机制,增强整体安全防护能力,让数据可用不可得和安全合规。
二. 产品功能
2.1 数据集成:多种方式异构数据源高效接入
文件加密在迁移文件到文件系统时,数据集成支持对写入云端的文件进行加密。
MD5校验一致性支持使用MD5校验,检查端到端文件的一致性,并输出校验结果。
脏数据归档支持将迁移过程中处理失败的、被清洗过滤掉的、不符合字段转换或者不符合清洗规则的数据自动归档到脏数据日志中,方便用户分析异常数据。并支持设置脏数据比例阈值,来决定任务是否成功。
2.2 数据架构:数据建模可视化、自动化、智能化
主题设计构建统一的数据分类体系,用于目录化管理所有业务数据,便于数据的归类,查找,评价,使用。通过分层架构对数据分类和定义,可帮助用户厘清数据资产,明确业务领域和业务对象的关联关系。
维度建模维度建模是以维度建模理论为基础,构建总线矩阵、抽象出事实和维度,构建维度模型和事实模型,同时对报表需求进行抽象整理出相关指标体系,构建出汇总模型。
2.3 数据开发:一站式协同开发平台
数据开发支持数据管理、脚本开发、作业开发、资源管理、作业调度、运维监控等操作,帮助用户轻松完成整个数据的处理分析流程。
数据管理:支持管理DWS、DLI、MRS Hive等多种数据仓库。支持可视化和DDL方式管理数据库表。
脚本开发:提供在线脚本编辑器,支持多人协作进行SQL、Shell、Python脚本在线代码开发和调测、支持使用变量。
资源管理:支持统一管理在脚本开发和作业开发使用到的file、jar、archive类型的资源。
运维监控:支持对作业进行运行、暂停、恢复、终止等多种操作、支持查看作业和其内各任务节点的运行详情、支持配置多种方式报警,作业和任务发生错误时可及时通知相关人,保证业务正常运行。
2.4 数据质量:可控可检验
数据质量模块支持对业务指标和数据质量进行监控,数据质量可检验,帮助用户及时发现数据质量问题。
业务指标监控业务指标监控是对业务指标数据进行质量管理的有效工具,可以灵活的创建业务指标、业务规则和业务场景,实时、周期性进行调度,满足业务的数据质量监控需求。
数据质量监控数据质量监控是对数据库里的数据质量进行质量管理的工具,您可以配置数据质量检查规则,在线监控数据准确性。数据质量可以从完整性、有效性、及时性、一致性、准确性、唯一性六个维度进行单列、跨列、跨行和跨表的分析,也支持数据的标准化,能够根据数据标准自动生成标准化的质量规则,支持周期性的监控。图4数据质量规则体系
2.5 数据资产管理:360度全链路数据资产可视化
DataArts Studio提供企业级的元数据管理,厘清信息资产。数据资产管理可视,支持钻取、溯源等。通过数据地图,实现数据资产的数据血缘和数据全景可视,提供数据智能搜索和运营监控。
元数据管理元数据管理模块是数据湖治理的基石,支持创建自定义策略的采集任务,可采集数据源中的技术元数据。支持自定义业务元模型,批量导入业务元数据,关联业务和技术元数据、全链路的血缘管理和应用。
图5全链路数据血缘
数据地图数据地图围绕数据搜索,服务于数据分析、数据开发、数据挖掘、数据运营等数据表的使用者和拥有者,提供方便快捷的数据搜索服务,拥有功能强大的血缘信息及影响分析。
在数据地图中,可通过关键词搜索数据资产,支持模糊搜索,快速检索,定位数据。
使用数据地图根据表名直接查看表详情,快速查阅明细信息,掌握使用规则。获得数据详细信息后,可添加额外描述。
通过数据地图的血缘分析可以查看每个数据表的来源、去向,并查看每个表及字段的加工逻辑。
对数据资产,可以从业务角度定义分类或标签。
2.6 数据服务:提升访问查询检索效率
2.7 数据安全:全方位安全保障
网络安全基于网络隔离、安全组规则以及一系列安全加固项,实现租户隔离和访问权限控制,保护系统和用户的隐私及数据安全。
用户权限策略基于角色的访问控制,用户通过角色与权限进行关联,并支持细粒度权限策略,可满足不同的授权需求。针对不同的用户,DataArts Studio提供了管理者、开发者、运维者、访问者四种不同的角色,各个角色拥有不同的权限。
数据安全针对数据架构、数据服务等关键流程,DataArts Studio提供了审核流程。数据的分级分类管理,数据的全生命周期管理,保证数据的隐私合规、可回溯。
三.产品优势
3.1 一站式数据运营平台
3.2 全链路数据治理管控
3.3 丰富的数据开发类型
3.4 统一调度和运维
3.5 可复用行业知识库
3.6 统一数据资产管理
3.7 数据运营全场景可视
3.8全方位的安全保障
四. 应用场景
4.1 一站式的数据运营治理平台
多种云服务作业编排
全链路数据治理管控
丰富数据引擎支持支持对接所有华为云的数据湖与数据库云服务,也支持对接企业传统数据仓库,比如Oracle等。
4.2 云上数据平台快速搭建
数据集成一键式操作通过在服务界面配置化操作,可实现线上线下数据快速集成到云数据仓库。
支持多种数仓服务类型根据需求,可以灵活选择数据服务类型,可以选择DWS服务建数仓,也可以选择MRS服务等数据平台。
安全稳定、降低成本一站式的服务能力和稳定的数仓服务,让云上数据万无一失;免自建大数据集群、免运维,极大降低企业建设数仓成本。
4.3 基于行业领域知识库快速构建数据中台
标准规范支持支持分层结构的行业数据标准。
领域模型丰富支持包含人员/组织/事件/时空/车辆/资产/设备/资源等八大类数据以及相互之间关系的行业领域模型。
据统计,99%的数据大咖都关注了这个公众号
👇
3、
8
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...