人尽皆知保护隐私需要权衡,重要的是如何实施权衡。具体到数据处理的实践里,重要的则是如何量化地实施权衡,甚至是将权衡服务化、管线化。2022年以来有关数据隐私的研究在量化权衡方面取得了实质的进展。这些进展可以分为四个部分。一是通过差分隐私量化隐私。二和三分别是在主体一侧和处理者一侧估计隐私的价值。四是“糅合”两侧价值实现量化权衡。以下逐次展开。
通过差分隐私量化隐私
差分隐私一方面有降低隐私风险的作用,另一方面也有量化隐私的作用。后者更为重要。简而言之,差分隐私总是包含一个称为“隐私预算”的参数,可以在零到正无穷间调节。取零时隐私保护最强,取正无穷时隐私保护最弱。虽然差分隐私有着多种存在细微差别的定义,隐私预算的实现也取决于具体的实现细节,但理论上总是可以通过转换与验证实现彼此可比。因此,只要运用了差分隐私,就意味着存在一个反映隐私保护程度强弱的量。
差分隐私对隐私保护程度的量化是后续量化权衡的起点。通过将隐私对于主体和处理者的价值分别除以隐私预算的变化,能够为权衡的前提事实找到标准化的参照。或者说,能够将隐私决策需要考虑的事实转化为“隐私保护上升/下降1%,则用户价值上升x%、企业价值下降y%的形式”。于是,在人口普查和在线广告等数据最充实、监管诉求也最强烈的场景中,可以看到各国政府和业界的领先实践已经开始尝试将差分隐私或其他类似指标作为隐私的度量标准。
在主体侧估计价值
接下来是基于隐私预算估计隐私对于主体的价值,以及隐私对于主体权益的影响。此处至少有两类相对成熟的方法。一是随机对照实验,或者是业界更加熟悉的AB实验;二是使用激励相容——也就是主体的最佳策略是诚实应答的机制——来诱导个体的真实反应,然后实现对隐私的估值。
这些方法之前都已经专文介绍,故此处只做简述。简单来说,为了应用隐私预算的良好性质,有待权衡的、与隐私有关的功能、特性或业务的变更都要尽可能符合差分隐私的定义。然后,一方面可以开AB实验,然后通过在不同实验组别间观察主体行为或者实施问卷调研,从而估计隐私保护增减对于用户权益的影响。如果在其中部分组别给予适当的物质激励,还可以实现隐私的估值;另一方面也可以通过附带真实物质激励、基于Becker-DeGroot-Marschak机制的问卷调研估计主体的隐私估值。有条件的还可以尝试对不同特征主体的隐私估值联合分布实现完整的非参数估计,从而回应更多“角度刁钻”的合规性批评,比如对于边缘群体隐私期待的异质性的批评。如上,即可将特定变更对于隐私主体权益的影响转化为“隐私变化1%,权益变化x%”的弹性形式。
在处理者侧估计价值
处理者侧的估计和主体侧估计大体类似。一方面是同样需要估计“隐私保护变化1%,成本/收益变化y%”的弹性,另一方面是需要充分考虑各方面的“隐私-成本/收益”弹性。如果非常粗略地将成本/收益切分为前端和后端两部分,前端的成本/收益主要是和主体行为相关的流量损益,可以和主体侧价值通过实验等方法一并估计。后端的成本/收益类型则更加丰富:实施差分隐私当然会有计算层面的开销,数据质量不可避免的下降会对下游任务的指标造成负面影响。与此同时,不仅是实施差分隐私所降低的隐私与安全合规风险需要折算,相应技术在“环境、社会与治理”方面的收益也不能忽视,特别是对于碳排放和公众信任的收益。这些成本和收益的估计很多应当已经在数据治理的过程中完成,一些相对新型的成本收益则是需要通过碳审计等正在发展的核算方法得到。如果依然难以实施,基于上市企业的数量颇丰的实证研究亦足以为核算提供必要的经验参数。我将在后续相关文章中进一步讨论实现相应估计的细节。
综合两侧估计实施权衡
如果处理者面临的任务较为简单,比如说是针对特定的功能变更的决策,基于上述两侧弹性的信息理应足够。如果处理者面临的任务“兹事体大”,比如说是否需要、应当如何披露人口普查数据,则需要更加科学、系统的权衡和决策框架。基于隐私预算的社会效用函数建模和校准可以实现这一需求。
虽然建构的细节相当复杂,这一社会效用函数最终的形式却颇为简洁。概要来说,函数分为两个层面。一是在主体偏好层面包含隐私偏好和数据质量偏好两部分,其中隐私偏好表示为隐私预算e乘以系数k,数据质量偏好表达为差分隐私下的均方准确率的线性形式(a+bI,其中I是准确率)。然后简单地加起来得到ek+a+bI,就得到了个体偏好。二是将每一主体偏好以相等的权重加总,就得到了社会层面的效用。与此同时,通过对于差分隐私技术本身的分析,可以得到e和I之间的取舍关系。对于常见的差分隐私实现,e和I之间的关系式可以方便地解析表示或者近似。所述参数k、a、b通常需要以校准的方式得到,同样会在后续文章中详细讨论。然后综合社会对于隐私和数据质量的偏好,以及技术本身能够实现的隐私和数量质量的最佳取舍,即可求解其权衡点。即使是对于“兹事体大”的普查数据保护,依然足以由此权衡最佳的隐私保护。
结语
通过差分隐私或其他类似指标可以量化隐私。在此基础上,通过实验方法和机制设计可以量化估计主体侧的隐私价值,通过类似方法、并且结合数据治理和其他相关研究可以量化估计处理者侧的隐私价值。这些量化的事实通常足以实现权衡。如果面临的任务特别重要、复杂,则可以进一步建立、校准反映社会层面利益的社会效用函数,然后求解最佳的隐私保护权衡点。这里的每一步都建立在隐私预算的基础上,有着一以贯之、前后一致的理论基础。对于数据治理、实验治理以及整体治理体系较为完善的处理者而言,这一量化权衡的服务化和管线化已属可行。相信也会很快在普查和广告等实践中看到自动化权衡的实现。
此外,上述步骤中还有若干技术细节有待补充,这一权衡管线本身的合规分析也是有趣的问题。这些都会后续做出补充。感兴趣的读者亦可自行探索。(朱悦)
主要参考文献
本文很大程度上可以视为笔者对2022年隐私技术实践发展的思考的总结。其中提及的对于差分隐私、AB实验、隐私估值、(隐私保护的)碳核算和社会层面的隐私权衡的研究都已完成或发表。感兴趣的读者可相应参阅。
至于其他主要参考文献,有关差分隐私的研究早已汗牛充栋。经典的入门著作是Dwork, Cynthia, and Aaron Roth. "The algorithmic foundations of differential privacy."Foundations and Trends®in Theoretical Computer Science9.3–4 (2014): 211-407.关于在经济学角度下理解和选择隐私预算,例如,可见Hsu, Justin, et al. "Differential privacy: An economic method for choosing epsilon." 2014 IEEE 27th Computer Security Foundations Symposium. IEEE, 2014.关于估计隐私弹性对其他变量的弹性,例如,可见Dekel, Inbal, et al. The Privacy Elasticity of Behavior: Conceptualization and Application. 2022.最后,有关社会效用函数的(由于作者身份,当有许多保留的)构建和校准,例如,可见Abowd, John M., and Ian M. Schmutte. "An economic analysis of privacy protection and statistical accuracy as social choices." American Economic Review109.1 (2019): 171-202.
声明:本文来自数据合规与治理,版权归作者所有。
还没有评论,来说两句吧...