亚马逊旗下的Amazon Web Services(AWS)是专业的大数据和云计算服务以及云计算解决方案提供商,为全球用户提供以云服务器、云存储、数据库、机器学习为主的基础设施和云解决方案服务。近年来,随着众多国家推出并施行数字化转型战略,以及越来越重视对数据的保护以及数据的共享流通利用,AWS针对全球用户对数据基础设施及服务需求的变化,推出了基于数据空间的云到云、云到端等多种模式的数据共享服务,支持集中化和分布式部署模式,帮助用户打破数据孤岛,充分释放数据价值。由于许多领域对不同企业或组织间数据共享的需求不断增长,例如智能城市、能源、出行、医疗保健、研究等,需要一种可实现互操作性的数据共享解决方案。数据空间能够克服跨异构技术堆栈问题,实现不同环境和不同地理位置的企业或组织间的数据集成。通过数据空间减少了数据连接的工作量,同时数据提供方可自我决定数据共享的规则和策略。
数据空间定义了其参与者和各自的角色:
所有数据都将在数据空间中注册,并可以通过分布式的方式提供给数据空间的参与者。这意味着没有单一的平台提供方来保存所有数据,数据仍保留在每个数据提供方托管数据的源位置。
数据空间设计用于数据控制和可信数据共享。这一概念设计指出,数据应始终处于数据提供方的控制之下,数据提供方通过其数据产品附带的可执行合同,决定谁有权访问数据、出于何种目的以及在何种条件下可以使用其数据。例如,某企业可以选择不与某特定国别或区域的企业共享部分数据。在同一个数据空间中,不同的数据消费方是其中一部分,但各方可拥有不同的访问权限。
最后,数据空间的一个关键方面是为数据共享的互操作IT环境提供支持,允许数据的可移植性,而不管数据在哪个平台上托管。
数据空间中的关键技术组件是连接器。连接器组件提供了数据共享方式的核心控制功能。连接器将通过合同谈判协商并执行数据空间参与者设置的规则,还管理使用现有数据协议或API传输数据的过程,如可使用Java数据库连接(JDBC)、亚马逊S3存储服务、HTTP(S)等。支持的数据协议可以根据需要扩展到数据空间中的其他数据源和目标。数据空间中其他重要的组成部分是一组共享服务,这是数据空间运营机构重点关注的。身份管理、数据目录和注册/验证等服务可以在每个数据空间中以集中或分布的方式进行管理。由数据空间运营机构从控制或需求等角度决定哪种方法更合适。运营机构通常是参与和运营数据空间共享服务(如注册、验证、目录和身份管理)的一个组织联盟。如果需要,根据实际情况可以将其他共享服务添加到数据空间增值服务中,例如,数据匿名化、个人身份信息(PII)模糊处理等。AWS非常关注数据空间在全球的发展情况,是IDSA、Gaia-X、Catena-X等项目的核心成员。AWS加入Gaia-X,将52项服务纳入Gaia-X演示者服务目录,以帮助欧洲客户和合作伙伴在欧洲加速云驱动的创新,同时满足适用的安全性、隐私和互操作性需求。AWS加入面向汽车行业的协作开放数据生态系统Catena-X,努力解决从供应链到保修、可持续发展等方面的挑战,并将利用此次合作的经验为商业和公共部门的客户和合作伙伴提供服务。数据空间位于基础设施(例如,数据存储)和应用或服务平台(例如,人工智能应用、数据分析应用)之间。- 策略引擎:在交换数据之前对各方之间的合同进行管理,并就达成一致的策略强制执行。
数据空间基于灵活和分布式的体系结构。数据与连接器存储及部署在数据提供方处,连接器提供了连接数据提供方和消费方的技术能力。数据共享系统需要一个协议实现来连接不同的参与者并协调数据流,同时强制执行参与者之间商定的数据使用策略。数据空间连接器组件的开发有多个组织方及企业的参与,其中之一是由Eclipse基金会托管的开源项目EDC,EDC的目标是提供一个可弹性扩展的开发架构。应AWS部分客户的请求(客户已经在建设或参与将使用EDC的数据空间),AWS参与EDC连接器 GitHub的开发及贡献,协助扩展EDC功能。在数据空间的环境中,AWS的目标是在数据空间所需的连接技术和AWS服务之间实现简单易用的集成,使客户能够以标准化的方式共享数据,同时为客户提供服务和工具,以充分利用客户自己的数据和第三方数据。数据空间基于数据交换参与者之间签订的协议来处理数据的发现和传输交换;底层的AWS基础设施使参与者能够以安全、弹性和可靠的方式运行所需的数据空间连接器,而且通过提供增值服务来支持数据分析和管理。数据空间连接器的可扩展特性使得不同的参与者可以很容易地开发扩展和集成,AWS可提供扩展和集成功能来建设一个安全、弹性且经济高效的基础设施,以让客户数据得到充分利用。AWS在数据空间中的角色是可信的基础设施和数据服务提供商,为客户创建、管理和使用数据空间。在数据空间上,AWS提供了更多的增值服务。例如,用户可以使用AWS Glue、Amazon Athena和Amazon QuickSight等服务来处理和理解数据。亚马逊SageMaker提供机器学习(ML)功能和数据检索。此外,AWS通过提供安全服务将数据加密变得简单,并在持续监控交换过程活动的同时提供细粒度的访问控制。用户可以通过使用包括AWS身份和访问管理(IAM)、用于数据加密密钥管理的AWS密钥管理服务(AWS KMS)、用于构建安全数据湖的AWS Lake Formation以及用于治理多帐户环境的AWS控制塔在内的服务来控制他们的数据和对数据的访问。图3描述了一个高级别的参考架构,展示了跨组织间的数据空间连接器的交互,以及使用AWS原生服务来进行数据分析和机器学习的案例。图3 AWS数据空间连接器(集成了存储、分析、AI以及ML管理服务)在此参考架构中,数据空间连接器部署在docker容器上,并可使用不同的编排技术(如亚马逊弹性容器服务(亚马逊ECS)或亚马逊弹性Kubernetes服务(亚马逊EKS))在AWS Fargate等无服务器计算引擎上部署这些容器。对于数据源和数据目标,在本例中,图3显示了亚马逊S3和亚马逊关系数据库服务(Amazon RDS)的组合。AWS analytics和ML服务可以在处理和分析数据业务方面提供增值服务。使用AWS Glue DataBrew,用户可以在没有编码技能的情况下提取、加载和转换(ETL)数据。处理后的数据可用于使用Amazon QuickSight生成商业智能仪表板。使用Amazon SageMaker,用户可以通过在数据空间的更大组合数据集上训练模型来运行预测分析。通过访问更多具有潜在附加变量和特征的数据,ML模型可以更准确、更快速地开发。所有这些组件都可以在serverless、亚马逊弹性计算云(Amazon EC2)或spot计算基础架构上运行,这些基础架构可以提供几乎无限的计算能力。此外,客户可承袭AWS提供的全面的合规性控制,AWS支持98项安全标准和合规性认证,包括PCI-DSS、HIPAA/HITECH、FedRAMP、GDPR、FIPS 140-2和NIST 800-171,有助于满足全球众多监管机构的合规性要求。对于需要网络连接的服务之间的交互,可以使用亚马逊虚拟私有云(亚马逊VPC)实现流量私有。亚马逊VPC提供了一个逻辑隔离的虚拟网络,需要发布的特定服务可以通过弹性负载平衡来访问。数据空间通过打破跨组织和行业的数据孤岛来帮助支持公共和私营部门更快地进行创新,同时支持安全和受控的数据交换。全球许多数据空间倡议正在将政府、研究机构和商业组织聚集在一起,以支持世界各地基于开放标准的数据空间。通过在诸如AWS等云基础设施服务提供商上构建数据空间技术及服务能力,在提供数据空间的数据连接和存储服务的同时,还可以将数据与分析、ML和商业智能等服务相集成,同时支持数据安全性。[1] AWS:Enabling data sharing through data spaces and AWS,https://aws.amazon.com/pt/blogs/publicsector/enabling-data-sharing-through-data-spaces-aws/?nc1=h_ls
还没有评论,来说两句吧...