差分隐私防护技术的介绍与实践（上）

序言

这几年人工智能、大数据技术的快速发展创造了很多机会和应用，但也使得人们的隐私数据正在不断的被各种技术平台、厂商收集。这些平台、厂商为了追求商业利益或提升技术水平，总是会主动或被动的将用户的隐私数据用于自己使用或卖给其它公司进行人工智能或大数据分析。这在一定程度上侵害了用户的个人隐私。

为了保护个人隐私，欧盟在 2018 年正式实施了《通用数据保护条例》（GeneralData protection Regulation, GDPR），随后在全世界范围内都陆续有隐私保护的相关法律法规出台，我们国家就个人隐私提出了《个人信息安全规范》等保护条例。鉴于个人和政府对隐私的重视，很多厂商加强了对大数据中的个人隐私保护力度，比如数据匿名化技术。数据匿名化通过抑制、泛化、聚合等手段来将发布的数据集中的敏感信息隐藏，这在一定程度上能够保护用户的个人隐私。但如果要防范一些专业的隐私窃取组织则远远不够。

现在考虑这么一种隐私窃取模型，设想一个受信任的机构持有涉及众多人的敏感个人信息（例如医疗记录、观看记录或电子邮件统计）的数据库，且能够提供一个全局性的统计数据。这样的系统被称为统计数据库。尽管表面看来，只有经过处理的统计特征被发布，但这些统计结果也有可能揭示一些涉及个人的信息。例如，当研究人员同时使用两个或多个分别进行过匿名化处理的数据库时，个人信息的匿名化手段仍然可能失效。比如：现有一个仅能查询全局性统计数据的查询人员，他首先查询了某科室今日接诊的100个人中，有5个是患艾滋病的，现在查询人员修改了查询条件，将张三从这100个人中剔除（比如张三的数据被手动标记了重复）重新再查询，发现有4个患艾滋病。那么此时查询人员可以推测，张三患艾滋病。上述的攻击技术主要是通过对统计数据库的查询结果和查询条件进行分析，我们称这类技术为统计数据库再识别技术。

差分隐私就是为防护这类统计数据库再识别技术而提出的一个概念。差分隐私技术的引入一方面可以使得企业能够在不侵犯个人隐私的情况下，使用大量的敏感数据进行研究或商业化用途。另一方面，研究机构可以基于差分隐私来开发适合数据社区的敏感数据云共享技术，在不侵犯个人隐私的情况下，解决数据共享的问题。

差分隐私介绍

2.1差分隐私的基本概念

差分隐私（Differentialprivacy，简称 DP) 是在统计学和机器学习分析背景下的关于隐私的一个强数学定义。目的是使得数据库查询结果对于数据集中单个记录的变化不敏感。换句话说，就是某个记录在不在数据集中对最终的查询结果的影响是非常小的。这样就可以防止某些攻击者通过增加或删除数据集中的某条记录，进而根据所得的查询结果来进行差分分析来提取隐私。差分隐私中的差分主要就体现在查询结果的差分中。如图1所示。

图1差分隐私基本概念

2.2 差分隐私实现思想

前文提到差分隐私主要是为了使得数据库查询结果对于数据集中单个记录的变化不敏感。也就是说要对查询结果进行一定的调整。使得单个记录的变化在查询结果上是体现不出来的。为了达到这样的效果，差分隐私的做法是给查询结果增加一定的随机噪声。比如刚才的医疗科室查询案例，增加随机噪声以后，可能100个接诊病人中，查询到的是5人患癌症，此时的噪声是0，而剔除张三再查询，查询到的还是5人，此时噪声是+1。而对于攻击者来说，是没有办法确定噪声是多少的。所以无法判断张三是否患癌。但是这样就新的问题了，加了随机噪声以后，查询到的数据已经不再精准了，那么数据本身的价值就降低了。这的确是差分隐私需要考虑的现实问题。那么差分隐私是怎么解决的呢，一方面，差分隐私通过更准确的概率模型来尽可能的让查询结果精准。另一方面，差分隐私提供了隐私预算ε来量化隐私保护级别。ε的值越低，则隐私保护的越好，但也会导致数据的准确度越低。所以具体设置怎样的隐私保护级别，需要开发者自行权衡。为了更好的展示差分隐私的能力，在此举一个经典的例子。

案例1：某社会调查为了统计社区内家庭中男性出轨的比例，最开始想到的是问卷调查的方式，但是发现这样会侵犯到被调查者的隐私。于是利用差分隐私技术，对调查结果增加噪声，采用抛硬币统计法。具体的做法如图2-1所示。被调查的个体在回答问题之前，首先抛一枚硬币，如果正面朝上，则如实回答。如果正面朝下，则再抛一次硬币，如果正面朝上，则回答“是”，正面朝下则回答“否”。

图 2-1 抛硬币统计方案

在这个统计方法中，不难发现任何一个个体都至少可能1/4的可能回答“是”，因为抛硬币这个动作是随机的。所以尽管有个体回答了“是”，也无法猜测该个体到底是不是真出轨了。这也就解决了隐私泄露的问题。既然隐私泄露问题已经解决，那么怎么得到较为准确的结果呢。则可以通过概率统计学的方法进行计算：假设共有N个数据个体，其中真正出轨的个体数量为M，经过抛硬币法统计后的回答“是”的个体共有T个。那么 T 的组成如下：

既然T和N是已知的，那么M也就能够计算出来的。当然，在这里我们假设了一次抛硬币正面朝上的概率是1/2，但实际上或许存在偏差。所以计算得到的M也会存在一定的偏差。不过这种偏差一般不大，这是能够接受的。

2.3 差分隐私数学定义

假设有随机算法M, S 是 M 所有可能输出结果组成的集合，Pr [·] 表示概率，对于任意两个相邻的数据集D和D’, D和D’之间只有1条记录是不一样的。如果能够满足：

我们在此先只考虑δ = 0 的情况，δ = 0 时称算法M提供是提供ε-差分隐私保护（ε-differentially private)。其中ε也叫作差分隐私预算。现在对公式做一下简单的变换，将D好D’ 替换位置（D和D’ 只相差一个条记录，反过来一样是成立的）则有：

又因为δ = 0，则不难得出：

所以，ε越接近于0，随机算法M在D和D’输出的数据分布越接近，它们表示的结果就越难区分，也就意味着隐私的保护程度越高。当ε = 0 时，M在D和D’在输出某个结果的概率就完全一样，输出结果不可区分。但此时原始数据的价值也就没了，因为根据公式继续推算的话，最后会发现M在相邻数据集中产生任意结果的概率是一样的，也就是说，M的结果完全独立于数据本身（完全随机）。所以无论是在人工智能还是大数据分析上，都需要数据分析者权衡ε的取值来兼顾隐私和数据价值。

2.4拉普拉斯机制

在前面节介绍了差分隐私的数学定义，也知道了差分隐私主要通过增加噪声来缩小结果对单个记录改变的敏感度。但是噪声具体怎么增加？怎么去量化？这些问题并没有解决。要想让差分隐私真正可用，则必须有一个具体的机制来增加噪声，随后的研究中，人们发现拉普拉斯分布是能够满足ε-差分隐私保护的，可以在数值型的数据库查询结果中加入服从拉普拉斯分布的噪声来实现差分隐私保护。拉普拉斯分布的概率密度函数为：

拉普拉斯产生的概率密度函数如图2-2 所示：

图 2-2 拉普拉斯概率密度函数

拉普拉斯机制的差分隐私保护定义为：给定数据集D，假设有函数

, 敏感度为

，随机算法

提供ε-差分隐私保护，其中 Y 服从拉普拉斯分布：

从公式中可以看出，ε越小，b 越大，则噪声越大，隐私保护程度越高。

2.5 RNM

在文章《The Algorithmic Foundations of Differential Privacy》第35页通过一个例子解释 RNM 算法。

案例2 最常见的医学疾病：假设我们希望知道哪一种疾病是在一组被调查者的医疗史中最常见，则需要进行一系列的调查。但是由于个人不希望别人知道其病史，所以需要在每个计数中添加Lap(1/ε) 噪声来解决。尽管通过噪声来保护个人的隐私，但是如果将所有的计数公布出去，尽管这些计数带了噪声，但还是会披露其它疾病的信息（我们需要统计的是最常见的，根据信息最小化原则，别的疾病信息不应该被披露）。所以需要使用RNM 报告最大的含有噪声的计数，而不是公布所有的计数结果。还有一点需要指出的是，RNM 算法也是符合ε-差分隐私保护的。