基于对我国大数据产业发展特征的研究以及对企业发展情况的调研,为了更好地引导企业安全、高效、高质量释放数据要素价值,重构数据生产力,我们从打造高效用数流水线,构建灵活保障机制的角度提出如下定义:
数据研发运营一体化(DataOps)是数据开发的新范式,将敏捷、精益等理念融入数据开发过程,通过对数据相关人员、工具和流程的重新组织,打破协作壁垒,构建集开发、治理、运营于一体的自动化数据流水线,不断提高数据产品交付效率与质量,实现高质量数字化发展。
值得注意的是,DataOps解决的最核心问题是数据研发效能问题。其关注的是数据研发运营管理的全生命周期,而不仅仅是某一单独环节。在建设完善全局最优的研发流水线的过程中,要时刻注意与企业的业务战略对齐,配合相关的组织保障、安全保障和工具保障进行实践落地。
DataOps概念示意图
DataOps作为一种新兴的数据管理方法,强调数据管理自动化,既能为数据工作者提供敏捷的数据开发支持,同时也简化了数据交付的周期,提升数据成产者与数据消费者的协同效率,成为企业数字化转型快速释放数据生产力的最佳方案。据Gartner预测:“到2025年以DataOps实践和工具为指导的数据工程团队的工作效率将比不使用DataOps的团队高10倍。”
1.形成敏捷数据产品开发流程
敏捷迭代,快速响应需求变化。基于敏捷开发方法,可以实现在整个数据处理流程中使用自动化工具和技术来实现快速、可靠和高效的数据交付。敏捷开发方法将数据处理流程划分为多个小部分,并在每个迭代周期中完成一部分数据处理任务,从而实现提速数据交付的目标。CI/CD流程可以实现快速的数据处理流程部署,从而达成连续交付和自动化测试等目标。
自助服务,主动利用数据资产。随着企业内成员数据文化水平的提高,数据需求方可以主动利用自助分析平台进行数据指标、报表、驾驶舱等任务的开发,快速满足自身需求。同时要求自助分析平台能够提供完备的数据资产目录、低门槛的功能组件和严格的数据访问控制及数据安全管理。
总之,企业在数据生产端通过敏捷开发、自动化工具等方法和技术提升交付效率,在数据消费端利用自助服务的形式支撑数据消费者自主地获取和处理数据,而不需要等待数据团队的支持和协助。在两端共同的作用下加速数据的交付。
2.构建高效的跨域协同机制
促进跨部门协作,打造协同型团队。根据业务需求,组建跨职能的复合型团队,通过与数据消费者和业务团队的合作,可以更好地了解他们的需求和痛点,为他们提供更好的数据服务和支持。通过与IT团队的合作,可以更好地了解系统架构和技术栈,为数据处理和数据集成提供更好的支持。一些数据驱动型企业都设置了类似“数据BP”的岗位,数据人员下沉到一线的业务团队中,与业务伙伴合作满足业务的数据需求,共同为业务的增长负责。
建立良好沟通机制,塑造协同文化。通过建立良好的沟通机制,数据团队可以更好地沟通和协作,及时发现和解决问题。利用邮件、即时通讯工具、项目管理等工具建立沟通渠道,通过每日站会等机制养成沟通习惯,借助内部wiki、共享文档等工具沉淀共享知识和经验。
借助技术赋能,善用协同工具。通过采用团队协作工具,数据团队可以更好地协同工作,提高工作效率和沟通效率。包括但不限于现代化的项目管理工具、协同编辑工具、在线会议工具等。
总之,企业可以通过组建协同型团队,建立协同保障机制并借助协同工具来共同保障数据团队开展协同工作。
3.打造开发治理一体化流水线
重构研发治理一体化流程,前置数据质量管控。对数据研发运营管理全生命周期的各个工作环节进行梳理,厘清数据质量、数据标准、数据安全等工作在研发环节中的位置,将数据治理工作融入到研发运营管理的流水线中,形成“先设计、后开发、先标准、后建模”的模式,在研发阶段对数据的质量和安全等问题进行有效管控。某互联网企业将整个开发治理流程分为四个阶段,分别是需求阶段、设计阶段、开发阶段以及交付阶段。明确各阶段中研发与治理的关系与责任,将数据治理的过程前置到数据开发环节,确保生产出来的数据是能够符合标准和规范的。
打造自动化测试流水线,及时发现、处理质量问题。通过将测试用例自动化执行,使用测试工具进行自动化测试,来避免人工测试过程中的错误和疏漏,并加快测试速度。并将自动化测试融入持续集成和持续交付流程中,确保每次修改和更新都经过了测试,确保数据管道的稳定性和质量。最后,实时监控数据管道的运行状态,发现问题并及时反馈给研发团队,确保问题能够快速解决。
与传统的先投产后治理的研发治理模式相比,企业基于数据研发治理一体化流程,能够在研发阶段便对数据治理问题进行管控和介入,结合自动化测试能力能够在投产前进行进一步检查。一方面提升了交付的数据质量,另一方面也提升了研发团队与治理团队的协同效率。
4.建立精细化的数据运营体系
减少人力成本。通过自动化工具、流程和自服务能力来降低企业的人力成本,减少了重复性和低效率的工作,让数据科学家能够专注于更高价值的工作。
降低运营成本。通过自动化运维和数据全链路监控等流程,来及时发现并反馈效能、资源以及质量等方面的问题,降低企业的运营成本,提高运营运维效率和数据管道的可靠性。这样可以让企业更加聚焦于业务创新,提高企业竞争力和盈利能力。
构造全局数据观测视图。数据可观测性是一种极其重要的数据管理手段,它不仅能够帮助组织充分了解其系统中数据的运行状况,而且可以在数据出现故障时及时提醒团队并降低其影响范围。数据可观测性的实现需要通过对数据链路的全面分析和上下文的数据可见性,才能有效地监控和维护整个数据生态系统。通过建立高质量的数据管道和监控机制,数据团队可以实时监测和分析关键数据资产的健康状况,以便在出现问题时及时发现和处理。
某科技集团基于工具平台支持企业全球数据平台智能化运营,利用智能化运营体系指标对开发质量、数据作业、平台稳定性、数据安全、数据资产以及平台资源进行自动化的监控、分析与提升,进而改善开发效率、避免合规风险、提升资源利用率。
总体而言,企业通过精益化管理在不牺牲数据交付效率的情况下,将数据流水线中的浪费情况降至最低。
本文节选自大数据技术标准推进委员会于“DataOps大会”上发布的《DataOps实践指南(1.0)》。
报告介绍及全文下载链接如下:
中国信通院云大所自2021年起开始搭建DataOps工作体系,核心围绕DataOps数据研发运营一体化理念,编制《DataOps能力模型》系列标准,共建谷雨社区、谷雨实验室等相关生态,持续编写并发布《DataOps 实践指南》、企业实践指南案例等研究报告;形成了基于DataOps系列标准的以评促建、谷雨生态共建、相关产业研究的服务体系。《DataOps能力模型》系列标准由中国信通院牵头,由来自金融、通信、互联网等领域的行业专家共同制定。该系列标准共分为总体架构、研发管理、交付管理、数据运维、价值运营、系统工具、组织管理、安全风险八项内容。目前DataOps工作组已启动对研发管理、系统工具两项标准的评估测试工作,并正在展开对交付管理标准的编制,欢迎相关单位前来咨询。
《DataOps 实践指南(1.0)》由中国信通院牵头,组织大型银行、通信运营商、头部互联网等企业共同编写,旨在总结各行业最佳实践,提炼核心理论框架,推动 DataOps 理念的广泛应用,加速数据驱动型企业的能力建设。
联系人:
田老师
13681585066
中国通信标准化协会大数据技术标准推进委员会(CCSA TC601,简称:数标委/BDC),旨在凝聚产业链各个环节,识别和解决大数据发展面临的重大问题,开展大数据技术、数据资产管理、数据共享与流通、数据安全等共性基础标准研究,以标准推进工作为纽带,推动大数据与实体经济深度融合。欢迎加入我们的行列!
入会咨询:白老师 13520285502
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...