全文共 9871 个字,建议阅读 15 分钟
01 数据中台介绍
数据中台是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径;数据中台把数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而为客户提供高效服务。
02 数据中台设计原则
业务系统规划法 (BusinessSystemPlanning,BSP) 的关键思想是将业务的长期战略目标转化为信息系统的战略目标,通过对业务战略的分析导出信息系统的规划。业务系统规划法(BSP) 的规划步骤:
1) 准备工作
2) 调研
3) 定义业务过程
4) 业务过程重组
5) 定义数据类
6) 定义信息系统总体结构
7) 确定总体结构中的优先顺序
8) 完成 BSP 研究报告,提出建议书和开发计划
(3)系统工程论
系统工程方法将相关问题及情况分门别类,确定边界,侧重各门类之间内在联系,确保处理方法的完整性,采用全面和运动的观点、方法分析主要问题及整个过程。其具有综合性、科学性、实践性的特点。
利用系统工程理论指导软件开发和维护,主要使用工程化概念原理、技术及方法开展软件开发、维护的工作。采用系统工程方法是用系统的原理、方法研究系统的对象,立足整体系统,制作出科学的工作计划及流程,有效的完成任务。
参考:
01 总体架构
(1)技术架构
目前各政府机构和企业的信息化平台数据按结构类型主要分为三种,分别是:结构化数据、非结构化数据、半结构化数据三大类
数据中台主要包含:数据统一采集接入平台、数据集中处理平台、数据组织管理平台、数据组织管理平台、数据全域治理平台、数据融合共享平台、数据分析挖掘平台、知识图谱平台、统一管理平台、数据可视化平台等多个平台系统。
(2)层次架构
基于数据资源的需求分析和愿景目标,结合设计规划方法论、原则和规划思路,统一数据资源体系规划建设大数据采集感知体系、数据资源融合体系和信息共享服务体系,将数据安全和数据标准融入二大体系之中,通过智能演进不断提升数据接入、处理、组织、挖掘、治理和服务的能力,不断丰富和完善数据中台。数据资源总体架构图如下所示:
(3)逻辑架构
统一数据资源体系的规划建设是数据建设的核心,承载着高效使用底层平台能力进行海量数据的动态感知采集和接入、标准化和智能化处理、精细化组织、全维度融合、精准可控的共享服务、多手段集成安全等关键责任和重任。为实现一述目标,统一数据资源体系规划了三大体系:大数据感知采集体系、数据资源融合体系以及数据共享服务体系。系统功能设计上,主要包含:数据接入、数据处理、数据组织、数据挖掘和数据治理、数据共享服务。各个模块的功能构成如下:
(4)数据架构
数据中台数据架构是针对多源异构的数据场景,在数据组织层面为数据的接入、融合及智能数据应用服务等提供稳定、高效的支撑从数据的接入方式、存储方式、加工方式、使用方式等方面综合考虑。
资源库是在原始库的基础上进行数据的规范化治理及基于数据主题的整合:主题库是以原始数据、资源数据为基础,构建实体关系模型并在此基础上形成的知识图谱和事理图谱等,业务库是为了支撑不同业务场景所定义的相关数据结构。
知识库是专业领域或与专业领域相关的特征知识数据和规则方法集合。此外还包括整合数据索引信息的统一索引库;记录了本平台及与平台相关的数据的属性、位置、数据量、权限等基本信息的数据资源目录;记录了技术元数据、业务元数据、管理元数据的元数据库; 以及为交工分析挖掘规划的数据实验空间和记录平台相关管理配置信息的管理信息库。数据架构图如下:
01 数据统一采集接入平台
(1)平台架构
采用统一的数据接入模式,以标准化、模块化的方式进行多源异构数据资源的接入:提供采集全面、动态可配的数据接入机制,实现数据的获取分发、策略配置、任务配置、任务调度、数据加密、断点续传等数据接入功能;当接入时,同时维护数据资源目录,以及数据血缘信息。
(2)数据流程
平台提供一站式的数据迁移接入功能,内部数据通过专用数据通道进入统一接入平台,可在接入过程中做初步的清洗加工,并提供可视化的任务调度运行管理,并向数据智能管理和数据治理提供数据支持。
(3)平台功能
1)数据接入
考虑到数据的种类多样性、多源异构性,以及通道的多样复杂性!数据接入系统支持多源接入,支持对数据接入的插件化管理,可以分为关系型数据库、nosal 数据库、分布式存储系统、流式处理系统、消息中间件系统、文本文件和文件系统等。
2)数据接入策略配置
数据接入系统策略配置模块针对多数据源系统以及结构化数据、半结构化数据、非结构化数据的不同数据类型特点,按照抽取、同步整合等数据处理步骤,提供一体化、可融合的数据适配解析器和数据转换功能,采用插件方式,支持二次开发,实现根据数据源情况的自适应数据解析和流程化处理。
3)数据接入断点续传
数据接入系统支持数据传输过程中的断点续传。在数据总线传输过程中,当遇到网络故障、传输资源短缺、入原始库积压时,状态总线记录接入数据中断点及数据接入中断状态,控制总线在数据接入所需网络、存储等资源可用时,从排队任务中重新启动断点续传任务分配数据总线资源,从数据断点处接入后续数据,不需要从头开始数据传输,从而节约数据传输时间,提高数据接入效率。在数据分发过程中,数据订阅方没能正常接收订阅的数据时,接入系统支持对失败数据做断点重发。
4)数据接入任务管理
数据接入系统支持多样化的任务管理方式,实现了多种场景的任务调度机制对数据接入的任务支持多角度的任务监功能,支持异常处理、重新调度等功能,及时解决存在问题,恢复数据传输,确保按时完成数据汇聚整合任务,保证大数据中心数据资源的准确性、完整性和一致性。
5)数据接入清洗
数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果能够直观的展示给相应的主管部门,主管部门确认是否过滤掉或者修正之后再进行抽取。
6)数据接入统计
数据接入系统接入统计模块支持对接入数据、分发数据进行多种维度的数据量统计。通过接入数据的接入统计,有助于对数据总资产总体的、宏观的、全面的掌握。接入统计模块主要从接入数据的数据量、接入数据文件数量、每个接入数据文件的接入时间、数据接入的总耗时、数据来源、数据文件类型、分发数据的数据量、分发数据的文件数量、每个分发数据文件的分发时间、数据分发的总耗时、数据分发目的地等维度,对数据接入做接入数据的整体统计。数据接入系统接入统计模块支持接入统计功能插件式开发,可自定义配置数据接入的统计项。
7)数据接入对账
数据对账是数据提供方和数据接收方在数据传输结束后进行完整性、一致性、正确性检验的过程,提供数据接入效果评估能力。
8)数据接入质量
数据接入系统的数据质量模块对接入数据做接入维度的数据质量检测评估。数据接入系统对接入数据解密异常、解压异常的数据作为问题数据记录日志。数据接入系统对接入数据的数据对账异常记录在接入数据问题报告。接入数据在完成数据对账后生成数据接入质量报告,对数据接入过程做整体的质量评估检测。数据接入系统的问题数据记录日志、接入数据问题报告对数据接入异常的数据做详细的信息记录,支持用户手动查询问题数据。
02 数据集中处理平台
数据处理是实现数据标准化的过程,包括了数据的提取、清洗、关联、比对、标识、对象化等操作,支持实时计算和离线计算,支持批量处理操作。数据传输过程支持分布式数据传输方式。
在数据处理过程中,引入人工智能技术,实现结构化和非结构化数据的处理,采用图计算和内存计算技术,实现数据的价值提升。在数据处理过程中.引入模型体系和标签工程和知识图谱技术,进一步提升数据价值密度,为数据智能应用实现数据增值、数据准备、数据抽象。
(1)平台架构
数据处理遵循相关标准,通过对数据进行提取、清洗、关联、比对、标识、对象化、构建知识图谱等规范化处理流程,实现异构数据的标准化及深度融合。数据处理采用开放式架构,能够以统一标准易于扩展的方式进行数据处理流程的动态编排。同时,在各环节引入了自然语言处理、多媒体信息处理和机器学习等技术,实现对数据的智能感知和认知。
(2)数据流程
(3)平台功能
1)数据提取
数据提取的过程主要是从功能各个业务系统上根据约定的采集周期采集全量或增量数据,生成相应的文本文件。在采集过程中可能涉及系统内或跨系统的数据关联获取。这些文本文件的结构与源数据基本相同(根据具体需求可能要滤掉一些字段信息) ,我们称这些存放源数据的文本文件为 EXF。
2)数据清洗
数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果能够直观的展示给相应的主管部门,主管部门确认是否过滤掉或者修正之后再进行抽取。
3)数据关联
数据的多源性,导致不同来源的数据之间的关系是离散的,需要对这些离散关系进行匹配或联接,进一步提高数据可用性。
数据经过提取、清洗之后形成的数据实体,比如可以通过命名实体识别对身份证进行识别,根据两个身份证之间的共现或根据词向量计算词与词之间的相似度来判断两个人是否有关系。
4)数据对比
数据比对包括结构化比对、关键词比对等,满足数据关联、线索发现、触网报警等业务需要。从数据类型上分,数据比对分为结构化数据比对、非结构化数据比对。
5)数据标识
标识是对数据、数据集进行某一特征、特征的识别和认定。对数据进行标识化可以增加数据维度,拓展数据的属性,提供建立与数据之上的抽象。标识流程主要是围绕标识建立一套包括标识的定义、执行、流程管理以及可视化等功能的系统。
6)数据纠错
综上所述,数据的标准化处理过程,按照数据标准,基本实现了自动化和智能化的处理,但是由于数据的多源异构特性,数据的庞大复杂性,对此类数据的自动化处理将是一个渐进改进的过程。在平台前期运行中,对进入各类资源库、主题库和业务库的数据需要进行准确性认定。针对有误的策略执行回滚操作,针对错误的数据中实现纠正错误数据功能。
7)数据处理任务调度
数据处理任务调度,实现任务自动切片分发、断点续传、节点管理、调度节点故障切换等功能。对视频图像、音频、文档等大文件数据,提供 FTP/SFTP、HTTP 等文件传输方式,实现断网续传、多线程并行分块传输等功能。
8)策略配置管理
针对结构化数据、半结构化数据、非结构化数据的不同类型特点配置管理中心支持按照提取、清洗、过滤、比对、关联、标识等数据处理过程,提供一体化、可融合的数据适配解析器器合数据转换功能,实现根据数据类型合数据情况的自适应数据解析和流程化处理。
9)数据存储
结构化和半结构化数据可存储于分布式并行数据库中,数据存储格式可以为列式存储和行式存储等多种存储方式。
10)数据模型建设
整个模型工程的架构主要由算子管理、模型建模、模型管理和模型引擎四部分组成。
用户可以通过多种建模方式创建基于标准的模型,部署到模型运行引擎上面配置模型参数,模型运行引擎会对模型运行的合法性进行验证,包括是否符合标准,数据资源是否有访问权限,算法参数是否合法,模型编排是否合理等。模型通过验证之后,会上传到测试平台上面,通过数据采样、构建测试集等多种方式检测模型执行的准确性模型测试成功之后,进行模型上线部署。通过申请计算资源,将模型实例化成任务运行。
11)知识图谱建设
将各类数据,汇总融合成为人、事、地、物、组织等多类实体,根据其中的属性联系、时空联系、语义联系、特征联系等,建立相互关系,最终形成一张由人事地物组织构成的关系大网。关系网根据数据的接入可自动更新,有效解决大数据时代数据分散、割裂以及难以统一处理的问题,为系统提供多维度、可查询、可分析、可研判的数据系统
12)人工智能语义分析建设
实体语义分析平台是一款集成统计学习、机器学习、深度学习等关键自然语言处理技术,具备专属语义模型建设和场景化自然语言处理流程建设能力的非结构化文本数据语义挖掘工具。致力于解决机器学习算法与业务的自动映射,提供业务建模与业务计算能力为企业实现非结构化文本落地。实现对非结构化文本进行智能处理,输出多维度业务标签,将无序的非结构化信息转换为满足业务需求的结构化数据。
03 数据组织管理平台
(1)平台架构
(2)数据流程
数据组织过程通过分层实现,经过标准化、对象化的处理过程!提高数据质量和数据价值
(3)平台功能
1)原始库建设
原始库是对不同来源的数据,按照数据的原始格式进行存储,支持所有的数据类型。因此,原始库的数据组织方式与接入时的数据组织方式直接一一对应,不对数据做任何处理。
2)资源库建设
资源库,综合各类数据资源进行提炼加工,形成公共数据集合对各项业务工作都具有支撑作用,可以脱离任何业务而独立存在,也与每一项业务相关。
3)主题库建设
主题库一般是根据客户实际的业务需要分析各行业的特性来定制化的相关数据库
4)业务库建设
业务库是支撑业务的相关需求,为特定的业务活动提供基础数据、临时数据、分析统计类数据、挖掘类数据等,并记录业务过程中总结及发现的相关知识。
5)知识库建设
知识库是指专业领域或与专业领域相关的特征知识数据和规则方法集合,包括一些全领域共享的用于主体、行为、言论分类的特定知识性数据集合,也包括处理、控制、表达知识数据的规则、方法、过程等集合,如犯罪规律、技法战法、业务处理逻辑等。
04 数据全域治理平台
(1)平台架构
数据标准管理负责管理维护整个数据中台的标准,为其他各类管理活动提供标准化服务支持。元数据管理为血缘管理和数据资产管理提供元数据支撑,基于元数据管理建立血缘关系、进行血缘分析、元数据级别的分级定义和资源目录规划等:数据资产管理负责数据资产共享、分发、使用、管理,包含数据资源目录、分级分类、生命周期管理、血缘管理等部分。
数据质量通过建立评估标准和管理规范,提供数据质量问题发现、监测跟踪、分析应用等闭环流程和管理功能为数据质量提供必要的保障;数据运维管理则全面掌握数据接入、数据流量、数据资源的总体情况和使用情况:数据运营是数据资产管理实现的最终阶段,该阶段包括开展数据资产价值评估、数据资产运营流通等
(2)数据流程
数据治理,通过管理数据资源目录、元数据、分级分类、血缘关系等信息保障数据汇聚与融合后的效果,规范数据组织形式;同时对数据质量进行管控,通过运维手段确保数据全生命周期的高质量运行,通过数据运营变现数据价值。
(3)数据资产目录
建设数据中台数据资源目录,以全国的原始库、资源库、主题库、知识库、业务库的数据资源为管理对象。形成标准的、规范的、统一的数据中台数据资源目录,结合用户分级分类访问权限管理,促进数据中台的数据资源科学、有序、安全的开放和共享。
(4)元数据管理
元数据管理是数据治理得到有效实施的关键技术环节之一,为了在大数据能力构建过程中有效的实时数据治理,平台须提供元数据管理功能,管理在实时过程中沉淀的各类元数据信息,并可开放各类元数据信息,以支持管理人员、业务人员和技术人员快速了解平台数据对象定义以及对象之间的关系等。
(5)血缘管理
数据的血缘关系主要由数据平台各类数据源的数据项信息、库表关系、ETL 逻辑、存储过程、代码逻辑等组成。能清晰的反映数据从源头到过程转化,到最终数据产物之前的转换关系,包括但不限于:组合关系、依赖关系、数据流向拓扑信息。
通过完善的数据血缘关系,建设数据中台的数据地图,提供良好的数据溯源、血统分析的能力。
05 数据质量管理平台
(1)数据标准管理
数据标准管理包括:根据制定的数据中台、各数据来源方基础数据,业务数据的数据标准,统一管理数据标准,规范数据资源格式、命名的准确性和口径的一致性。
(2)数据生命周期管理
数据的生命全周期管理,须贯穿于数据中台采集、存储、整合、处理与分析、应用与呈现、归档与销毁的数据生命周期,进行持续优化治理。元数据管理和主数据管理是数据标准化层面的治理,从基础上保障数据的完整性、规范性和一致性。数据质量管理更加强调运用数据特征度量来精确判定数据价值,更加注重数据清洗后的整合、分析与价值利用,更加倾向于通过持续治理来有改进数据质量、创造新的价值。
数据中台的开放共享使得数据安全与合规问题更加严重,需要在数据全生命周期内强化数据分级分类管理、强制数据鉴权访问,确保重要数据资产在使用过程中具有适当的认证、授权、审计、控制。
(3)数据质量管理
数据运维管理和数据质量管理息息相关,数据质量管理是客观上对整个数据提供层数据的质量量化评价标准,用来把数据质量比较抽象的概念用数字等指标来进行量化,是对数据提供层数据质量高低的个客观评价。
数据运维管理是把数据提供层数据通过可视化或报表等方式客观展示系统整体情况,通过可视化的形式把数据质量进行展示汇总,从而达到真实数据的客观展示,并通过客观数据发现系统的问题,来逐步完善系统的整体功能和性能,从而提升整个系统的质量。
06 数据共享服务平台
(1)平台架构
服务总线通过 API 接口方式提供服务,服务构建平台为应用开发提供支撑。通过以上方式,形成数据中台手段丰富、分类服务、按需动态授权的数据服务综合模式。
(2)数据流程
(3)平台功能
1)数据服务总线设计
①数据服务总线功能
服务管理中心主要针对节点和服务进行管理。节点分为主中心节点和分中心节点(包括备份中心)。节点管理主要完成节点注册,节点审批以及节点的基本信息维护等。服务管理主要完成服务注册、服务审批、服务发布、服务检索、服务维护、服务分类以及服务信息的全网同步等。
②数据服务总线部署
数据服务总线,在主中心和分中心分别部署,在各级数据服务总线节点之间建立数据互联通路,实现消息、实时数据流 (包括音视频流数据)、文件等多种数据交换方式,实现服务调度、服务路由、数据交换、服务调用、服务安全等功能。
2)数据服务场景设计
①数据服务构建场景
②数据服务使用场景
服务使用者浏览服务目录,选择需要使用的服务,提交服务使用申请。服务管理者对此服务使用申请进行鉴权,如果判断有权使用此服务,那么批准此申请。服务使用者在使用完服务后,对服务进行评价,评价信息会被其他服务使用者参考,以帮助他们了解服务的质量。
③数据服务审计场景
3)数据交换服务
数据交换服务是数据中台各节点提供的面向业务部门的数据交换渠道。目前包含数据订阅、数据下载、数据推送等数据共享服务模式。
①数据订阅服务
数据订阅服务包含订阅发布和订阅推送两个过程实时订阅和精准推送。订阅类型包含增量订阅、关键词订阅、范围订阅、协议订阅、消息订阅、主题订阅等。
数据订阅服务主要功能包括可订阅数据和服务目录查询,数据订阅提交,订阅撤销、续订和订阅协议标准查询等。
②数据推送服务
数据推送是数据平台各节点之间,数据平台和省市县各平台之间数据交换的基础核心能力,数据推送实现将加工好的数据或分析成果,向一线推送,以便应用于实战、体现大数据价值,并将数据化为数据能力的过程。
③数据下载服务
数据下载服务是对数据资源异步处理方式。数据下载服务,提供日常业务数据、政策信息、共享目录数据等的下载路径。
4)数据可视化服务
数据可视化服务,帮助用户快速完成多数据整合,建立统一数据口径,支持自助式数据准备,并提供灵活、易用、高效可视化探索式分析能力,帮助用户构建切合自身业务的企业洞察,并将数据决策快速覆盖隔层相关人员及应用场景。
5)数据管理服务
①元数据访问服务
元数据,主要是对数据的数据描述,对数据的数据描述可以概括为如下几个部分:数据结构定义、数据代码定义、数据部署定义、数据接口规范定义、数据血缘关系定义、数据路由访问定义、数据访问权限定义组成。元数据访问服务,提供数据资源、服务资源的元数据查询访问能力,并提供分级汇聚的服务能力。支持枚举数据资源、获取数据资源的元数据信息以及字段结构信息,包括对应的元数据信息等。
②数据字典服务
数据字典是对数据的数据项、数据结构、数据流、数据存储等进行定义和描述,数据元素业务含义的抽象表达,用来对数据流程图中的各个元素做出详细的说明,是对系统中使用的所有数据元素的定义的集合。
数据字典服务提供数据字典的查询、翻译接口,返回字典类别、字典项值等相应所需结果,实现数据字典查询或翻译。
③数据鉴权服务
数据鉴权服务要求所有的数据服务请求,都必须对请求方权限进行验证,确保其所访问的数据在权限允许范围内,是数据中台保证数据安全的核心。
④跨网跨域服务
跨网跨域服务,实现内部数据、外部社会数据和内外部泛感知数据的整合,形成高质量的数据基础;在保证数据安全的前提下,通过边界防护,允许适当的公共网络跨越边界使用内部的数据服务,实现数据中台的跨网,跨域服务能力,体现数据中台的社会价值。
07 数据可视化平台
(1)平台架构
数据可视化平台为整个数据中台提供了大数据可视化展示能力,它为客户提供了各种可视化组件,客户可以根据自己的需求通过组件间简单组合进行数据展示。为客户提供了超过 50 种以上的数据可视化展示方式。
(2)数据流程
通过可视化分析展示平台,使抽象的数据信息变得简单、易懂直观呈现数据分析结果,丰富的可视化组件可帮助业务准确的表达数据的价值所在,完善的功能可帮助用户建立有针对性的报表体系。其主要价值可体现在即席查询、数据洞察与大屏呈现、移动报表之上。
(3)平台功能
1)数据可视化
系统支持多场景模板管理,预置地理分析、实时监控、汇报展示等多种场景模版。系统支持除针对业务展示优化过的常规图表外,还能够绘制包括海量数据的地理轨迹、热力分布、地域区块、3D 地图、3D 地球,地理数据的多层叠加。此外还有拓扑关系、树图等异形图表可以自由搭配。
提供丰富的图形可视化选择,(堆积) 柱图、 堆积) 横条图、散点图、(堆积)面积图、折线图、组合图、瀑布图、饼图、环形图、南丁格尔玫瑰图、油量图、散点图、气泡图、雷达图、关系图、热力图、词云图。
2)地图分析
地图分析可以将数据在地图上进行可视化呈现,形成地理导航仪,通过点击、下钻以及图表联动等方式,进行数据分析和展示。
3)仪表盘
适用于管理者把握全局,运筹帷幄。以简洁、直观的界面,展现各环节的数据,并以丰富的展现和互动形式为决策者提供帮助。
4)大屏幕
系统内置大屏拼接控制,可以根据不同的应用场景,自由布局多块屏幕的分布以及显示内容,既可重点关注专项事件态势,又可全面掌控整体态势。可通过 PAD 等手持设备作为控制终端,来实现对大屏显示布局、监控模式的切换以及软件界面内容的交互控制。提供各种灵活、便捷的操控体验。
5)报表报告
本报表报告可满足各种格式的行业监管报表、内部管理报表的需求。包括:清单报表、交叉报表、分组报表、多源分片报表、分块报表、表单报表、图形报表、回写报表、假设分析报表、二次计算报表套打报表、段落式报表、预警报表、组合报表。
6)分析报告
系统可通过拖拽的方式形成报告的模板,即可按照相关参数随时进行报告生成,省去定期手工出报告的时间和烦恼。将数据从IT 环节贯通到办公系统,提高报告的制作效率,使业务的工作重心回归问题的原因分析和解决方案设计上。
7)丰富的交互查询
系统支持按照时间、空间、属性等不同维度对数据进行全方位呈现,提供丰富的呈现形式和交互功能。
8)二三维联动功能
三维双屏相互联动,二维的平面地理视图便于操控,三维视图便于直观形象化展示。
9)数据历史回放
系统支持任一时间段的数据以轨迹图、仪表盘等各种方式加以展现,并可对全系统数据同步进行快进、慢放等操作,有助于决策者了解全局数据变化趋势。
08 主要关键技术
(1)内存级数据交换共享
多元异构、一键迁移 数据采集和分发 数据实时交换 数据ETL工作流 分布式内存处理 多种数据灾备方式
(10)应用系统技术指标
【END】
据统计,99%的大咖都关注了这个公众号
必读文章:
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...