DataOps指南：数据治理新时代来了？

作者 | Mir Ali

译者 | Sambodhi

策划 | 凌敏

DataOps 不只是一种开发方法。它利用民主化的访问和巨大的潜力，彻底改变了组织使用数据的方式。

最近，一项针对企业面临大数据挑战的调查显示，38% 的企业“缺乏”有说服力的商业案例来使用他们的数据，34% 的企业不具备处理大数据技术的成熟流程，24% 的企业没有能力让他们的用户使用大数据。

假如调查的结果是真实的，那么就意味着，很大一部分企业面对自己拥有的数据，以及从客户持续收集的数据，不知道自己能做什么，必须做什么。而这，也会让企业在与竞争对手进行比较时处于非常不利的地位。在数据驱动的竞争环境中，如果企业忽视数据，不能充分发挥数据的潜力，那么对组织而言只能带来灾难性的结果。

目前来看，很多企业都在收集大量的数据，其中一部分是遗留数据管道：随着数据在数据管道中从源移动到目标，每个阶段对数据的含义以及如何使用它都有自己的想法。这种不连贯的数据视图使数据管道变得脆弱且难以改变，从而使组织在面对变化时反应迟缓。

解决这个难题的方法就是 DataOps。

DataOps 是什么？

DataOps 是数据操作化（data operationalization）的缩写，是一种协作性的数据管理方法，它强调组织内部数据管道的沟通、集成和自动化。

与数据存储管理不同，DataOps 主要关注点的不是数据“存储”。它更关心的是“交付”，也就是让数据对所有的利益相关者来说都是现成的、可访问的和可用的。它的目标是为数据、数据模型和相关工件创建可预测的交付和变更管理，从而在整个组织和消费者之间更快地提供价值。

DataOps 通过采用技术来实现这一目标，将数据的设计、部署、管理和交付自动化，从而提高其使用和提供的价值。这样可以让所有使用数据的利益相关者都能很容易地访问数据，而且还可以加快数据分析的周期。

这样一来，DataOps 可以大大提高企业对市场变化的反应时间，让他们能够更快地应对挑战。

DataOps 所解决的挑战和问题

大数据最重要的承诺是快速、可靠的数据驱动的可操作业务洞察力，由于面临着组织、技术和人力（使用数据的人员）等方面众多的挑战，这些承诺仍未实现。DataOps 通过学习和实践敏捷、DevOps 和精益生产方法论来帮助克服这些挑战。

速度。现代组织依赖来自许多不同来源、不同形式的数据。清理、改进、然后使用这些数据可能是一个复杂和漫长的过程，以至于当最终从中产生洞察力时，它们与快速发展的业务环境已不再相关。DataOps 从根本上提高了从数据中获得洞察力的速度。
数据类型。有时候，组织收集到的数据可能是非结构化的格式，这让你很难从中获取洞察力。DataOps 使组织能够从其拥有的每个数据源中识别、收集和使用数据。
数据孤岛。DataOps 打破了组织内部的数据孤岛，并将所有数据集中在一起。与此同时，它构建了弹性系统，使每个需要访问数据的利益相关者都能获得自助服务。在组织内外发生变化时，这些系统也在不断发展，但是它们为“数据用户”提供了可预测的方式来寻找和使用他们所需的数据。

通过克服这些挑战，DataOps 使得 DataOps 团队能够为工程师、数据科学家、机器学习工程师甚是客户等每一个需要的人提供数据，并且比以前更快。简单来说，DataOps 可以带来以下好处：

数据利用率最大化。DataOps 为数据的所有“用户”解锁数据，不管是分析师、高管还是客户。可以实现数据交付的自动化，并在这一过程中让各个部门从数据中提取最大价值。这样做的结果是增加了竞争力，对变化的反应能力，以及更高的投资回报率。
在正确的时间获得正确的洞察力。大数据的一个普遍问题就是在错误的时间获得正确的洞察力，迟来的洞察力是没有用的。DataOps 可以快速地将数据提供给每一个需要的人，从而让他们能比以往更快地做出更明智的决策，使得组织能够快速发展，以适应市场的变化。
提高数据生产率。DataOps 使用自动化工具，以自助服务的形式交付数据。这样就消除了数据请求和数据访问之间的任何固有延迟，使所有团队可以快速地作出数据驱动的决策。DataOps 还使组织摆脱了手工数据管道变更管理流程。相反，对数据管道的所有更改都会简化并实现自动化，以提供快速、有针对性的更改。
针对结果优化的数据管道。DataOps 在数据管道中加入了一个反馈回路，它使各种数据消费者能够确定他们所需要的特定数据，并从这些数据中获得定制的洞察力。每个团队都可以利用这些洞察力来降低成本，发现新的机会，增加收入，并提高组织的盈利能力。

DataOps 的原则

从技术上讲，DataOps 实现了组织最具突破性的里程碑之一——在不影响数据分析的速度和质量的情况下，使其数据程序具有高度的可扩展性。由于它借鉴了 DevOps 的经验和实践，所以 DataOps 在很多关键方面与 DevOps 重叠。从 DataOps 的三个基本原则可以看到：

1. 持续集成

DataOps 从不同来源动态识别、整理、集成并提供数据。随着团队为 DataOps 添加了新的数据源，新的数据将自动集成到数据管道中，并通过人工智能 / 机器学习工具提供给各个利益相关者。

得益于自动化，从数据发现到数据整理、转换和洞察力的定制都已经完全简化。事实上，数据交付可以直接通过实时流交付给预测算法，从而为用户，尤其是消费者提供即时的洞察力。这种优化的数据集成流程确保了数据发现和数据使用之间不会浪费时间。

2. 持续交付

组织数据的价值只在于从中产生的洞察力。团队接触到的越多，从中提取的洞察力也就越多。但是，数据的可访问性也带来了数据治理的挑战。DataOps 使整个组织具有可操作性的数据治理，同时使数据访问民主化，并且提高了安全性和隐私性。

为了满足内部数据质量和数据屏蔽规则，有目的地以协作的方式向内部和外部的消费者交付数据。为了达到这个目的，我们经常使用一个“智能”的数据平台。在保证数据质量、隐私和安全的情况下，各利益相关者都可以利用它，并从中获得准确的洞察力，而不用担心数据治理的影响。

3. 持续部署

数字化企业依靠大量的数据驱动的应用程序，在对组织的未来有深远影响的功能上做出实时决策。诸如欺诈检测、人工智能聊天机器人、销售、供应链管理等关键任务功能需要随时更新数据以供决策使用。持续部署可以让所有用户无缝地访问新数据。

DevOps 与 DataOps

尽管 DataOps 借鉴了 DevOps 的知识和操作流程，但两者之间有着很大的区别：

人的因素。虽然 DataOps 的参与者可能对技术了如指掌，但是他们更关注于为数据用户创建算法、模型和可视化辅助工具。而 DevOps 参与者则是具有运营思维的软件工程师。
流程。DataOps 流程的特点是数据管道和分析开发编排，而 DevOps 流程很少涉及编排。
测试。与 DevOps 不同的是，DataOps 在很大程度上依赖数据屏蔽来进行测试，因此，测试数据的管理就变得非常重要。另外，DataOps 通常会在部署之前在数据管道和分析开发过程中测试和验证数据。
工具。DevOps 拥有一个成熟的工具生态系统，尤其是在测试方面。作为一种新的方法，DataOps 通常要求团队从零开始构建工具，或者为其目的修改 DevOps 工具。

DataOps 平台的演进

在数据分析的早期，ETL（萃取 (extract) 转置 (transform) 加载 (load））工具作为管理大量（相对而言）传入数据的强大工具出现了。但是，随着传入的数据种类、真实性和数量的爆炸式增长，对可扩展性和高速数据分析的需求越来越迫切。数据连接器固有的缺陷也被证明是一个限制性因素。

云计算的出现解决了数据摄取、管理和分析等难题。将 ETL 工具和云资源结合在一起，可以加速分析。但是，仍然面临着一个日益严峻的挑战——数据的可访问性。仅仅使用数据来产生洞察力是不够的，每个人都应该能够获得这些洞察力。

于是，DataOps 应运而生。DataOps 实现了数据访问的民主化。根据组织的数据治理政策，所有的利益相关者都能够获得安全、高质量的数据，而不仅仅是少数人能够访问数据。

作者介绍：

Mir Ali，公认的技术领袖、战略专家，曾在多个组织中担任高级管理职位，包括惠誉（FitchRatings）、Here 和美联航。

原文链接：

https://dzone.com/articles/a-guide-to-dataops-the-new-age-of-data-management

如有侵权，请联系删除

好文推荐

欢迎关注系统安全运维