新加坡发布《合成数据生成指南》

合成数据（Synthetic Data）生成技术在近年来逐渐成为一项重要的隐私增强技术（PET），这项技术不仅能够保护个人数据隐私，还能够解决训练数据集不足或数据偏差等数据质量问题，促进人工智能（AI）和机器学习（ML）的研发和应用。

2024年7月15日，新加坡个人数据保护机构（PDPC）发布了一份《合成数据生成指南》（Guide on Synthetic Data Generation，以下简称“《指南》”），旨在帮助组织了解合成数据生成技术及其应用场景，了解生成合成数据的技术和最佳实践，实现隐私保护和数据质量之间的平衡。

关于合成数据的系列文章，请见：

关于新加坡的人工智能治理举措，请见：

《指南》首先概述了合成数据的作用和优势

1. 保护隐私

合成数据通过生成与原始数据统计特性相似的数据，避免了直接使用敏感个人信息，从而有效保护了数据隐私。这对于遵循数据保护法规（如GDPR）具有重要意义。合成数据不包含实际个人信息，而是基于统计特征和模式生成的虚拟数据，使得即使数据泄露，也不会暴露个体的真实信息。

2. 提升数据的质量和数量

合成数据能够解决AI模型训练中数据不足或数据偏差的问题。通过生成更多样化的数据，可以显著提升模型的训练效果和泛化能力。例如，合成数据可以用来增加欺诈检测模型中的欺诈交易数量，从而提高模型的准确性。此外，合成数据还可以填补稀有事件数据的空缺，帮助模型更好地学习这些事件的特征。

3. 促进数据共享与协作

由于合成数据不包含真实的个人信息，组织之间可以更加自由地共享数据。这有助于跨组织的研究合作，推动科学研究和技术创新。通过使用合成数据，企业和研究机构能够在不违反数据隐私法律的前提下共享数据，促进联合分析和创新项目的开展。

《指南》介绍了生成合成数据的主要技术

1. 贝叶斯网络（Bayesian Networks, BN）

贝叶斯网络是使用有向无环图（DAG）表示变量之间条件依赖的概率模型，能够生成在统计学上与原始数据相似的合成数据。在需要准确数据关系的领域，如医疗保健和金融，BNs非常有用。BNs通常需要通过专家驱动的方法进行精确建模，或者也可以通过数据驱动方法构建，尽管后者由于对底层数据关系的推断不够可靠，可能会牺牲准确性。

2. 条件Copulas函数

条件Copulas函数适用于中等规模的训练数据集，能够高效地生成所需数据的联合分布的稳健复制。与依赖于训练数据规模和数量的机器学习方法相比，Copulas提供了一种成本效益高的替代方案，它平衡了数据可用性与专家先验知识，根据预设条件生成多样化的样本集。

3. 基于边际的数据合成（Marginal-Based Data Synthesis）

这是一种广泛使用的方法，用于合成表格数据。该方法涉及从输入表中选择一组边际，每个边际是表对其属性子集的投影。然后构建一个统计模型（例如贝叶斯网络）来捕获边际内属性之间的相关性，该模型随后用于生成保留属性相关性的合成数据。

4. 基于序列树的合成器（Sequential Tree-based Synthesisers, SEQ）

通过使用通常用于回归和分类树（CART）算法的决策树序列来生成合成数据。这些模型构成生成器，然后用于生成数据，通过从预测的终端节点采样来获得合成值。

5. 生成对抗网络（Generative Adversarial Networks, GANs）

GANs是一种深度生成模型，擅长合成复杂、高维数据集。通过对抗过程，生成器创建合成数据，鉴别器评估其真实性，并促使合成输出的持续改进。这种迭代细化使GANs能够生成与原始数据非常相似的合成数据。

6. 语言模型（Language Models）

最初为自然语言处理任务开发的Transformers和大型语言模型（LLMs）也被证明在合成表格数据方面非常有效。这些模型使用注意力机制来理解数据中的复杂关系，非常适合创建反映现实世界复杂性的合成数据集。

《指南》介绍了合成数据的几项典型应用

1. 金融领域的反欺诈模型

在金融领域，欺诈交易占比较低，导致模型训练难度大。J.P. Morgan利用包含更多欺诈交易的合成数据来训练反欺诈模型，提高了模型检测欺诈行为的能力。通过这种方法，银行能够更有效地识别和预防欺诈行为，保护客户的资金安全。

2. AI偏见研究

万事达卡通过与研究人员合作，使用合成数据开发了多标签模型的偏见测试方法。合成数据的使用确保了隐私保护，同时帮助开发出了更加公平的模型。通过分析合成数据中的潜在偏见，研究人员能够调整模型算法，减少实际应用中的偏见风险。

3. 医疗数据分析

强生公司引入AI生成的合成数据，作为处理医疗数据的替代方案。这种方法在保护患者隐私的同时，提高了数据的分析潜力和实用性。合成数据在医疗研究和临床试验中的应用，能够加速新药研发和医疗技术的进步，同时确保患者数据的安全。

4. 数据共享与协作

某制药公司由于监管限制无法共享数据进行假设检验。A*STAR为其创建了数据的合成副本，使得初步分析成为可能。这使得公司能够在购买高价值数据之前评估数据质量，降低数据购买的风险。合成数据的使用，促进了企业之间的数据合作，提高了市场竞争力。

为帮助组织更好的采用合成数据，《指南》描述了合成数据生成的步骤

1. 了解数据（Know your data）

在开始任何合成数据项目之前，必须对合成数据的目的和使用案例以及合成数据将要模仿的源数据有清晰的理解。这有助于确定使用合成数据是否相关，并识别使用合成数据可能带来的风险。需要考虑的因素包括：源数据的一般趋势/洞察是否敏感，合成数据的预期公开程度，以及是否需要对接收合成数据的接收者设置适当的合同义务，以防止重新识别攻击。

2. 准备数据（Prepare your data）

准备源数据以生成合成数据时，需要考虑以下内容：需要在合成数据中保留哪些关键洞察，合成数据需要哪些必要数据属性来满足业务目标。这包括识别源数据中的趋势、关键统计属性和属性关系，选择数据属性时应用数据最小化原则，去除或匿名化所有直接标识符，如果不需要详细信息，可以在此阶段或后续步骤中对数据进行概括或添加噪声以降低重新识别的风险。

3. 生成合成数据（Generate synthetic data）

合成数据的生成方法多种多样，如基于序列树的合成器、Copulas和深度生成模型（DGMs）。组织需要根据用例、数据目标和数据类型来考虑最合适的方法。生成合成数据后，应进行数据完整性、数据保真度和数据效用的检查。

4. 评估重新识别风险（Assess re-identification risks）

合成数据生成和效用评估被认为可接受后，组织应根据内部接受标准进行重新识别风险评估。这通常涉及攻击基础评估，即评估对手通过单一攻击、链接攻击和推理攻击成功识别出个体属于源数据集（即成员推断）或/和从源数据集中推导出未公开的个体细节（即属性推断）的可能性。

5. 管理遗留风险（Manage residual risks）

在最后一步中，组织应识别所有潜在的剩余风险，并实施适当的缓解控制（技术、治理和合同），以最小化已识别的风险，这些风险和控制应作为组织企业风险框架的组成部分进行文档记录和批准。例如，在数据共享与协作过程中，应制定明确的合同条款，确保各方遵守数据隐私保护规定，并通过法律手段保障数据安全。合同中应明确规定数据的使用范围、责任分配和违约处理等内容，以确保数据的合法使用和保护。

《指南》提到，差分隐私技术能够有效地保护数据隐私，防止个体信息被推断和还原。在生成数据时，采用差分隐私技术，通过加入噪声保护个体隐私，确保数据安全。这样，即使数据被分析，也无法还原出个体的真实信息，确保了数据的隐私性。差分隐私技术适用于需要高隐私保护的场景，如医疗数据和金融数据的处理。

产品服务

前瞻研究

中心动态

数据信任与治理

“数据信任与治理”由下一代互联网国家工程中心运营。放眼全球数据治理前沿理论与实践进展，探索可信数据治理的中国模式，促进数据要素有序流通，释放数字经济红利。

TDG focuses on the cutting-edge theory and practice of global data governance, explores the Chinese model of trusted data governance, promotes global data flow, and fulfills the potential of the digital economy.