本文系《可信实验白皮书》系列的第五篇文章,上一篇我们围绕随机轮转实验展开,内容主要包括抛硬币随机轮转、完全随机轮转、配对随机轮转等几个实验方法的介绍。本篇我们会介绍准实验,然后会重点介绍双重差分法,包括概述、评估原理及美团的一些实践案例。
本章目录
5.1 双重差分法
5.1.1 方法概述
5.1.2 评估原理
5.1.3 平行趋势分组
5.1.4 实验案例
5.2 拓展与展望
5.2.1 双重差分法拓展
5.2.2 其他准实验方法
准实验(Quasi-experiment)适用于“实验设计者”可干预分组,但无法随机分配实验单元至实验组和对照组的场景。经典随机对照实验通过随机分配实验单元,保证了实验组和对照组的可观测特征和不可观测特征分布都是相同的,差异仅在于样本是否受策略影响,因此两组观测结果的差异可以归因于策略影响。然而,在一些无法随机分配样本的场景下,实验组和对照组的特征分布往往不一致,进而导致两个组在未施加策略时就存在差异,此时需在满足部分特定条件假设的前提下使用准实验评估方法,才能够比较准确地估计策略的效果。
以美团履约业务场景为例,以下几个因素可能阻碍进行时空粒度的随机实验。
溢出效应+小样本等多重约束下无法开展时空随机实验:
溢出效应:履约业务是一个典型的多边场景,容易造成实验单元间相互依赖和影响,而简单的随机对照实验,通常会违背个体处理稳定性假设(SUTVA),进而造成实验偏差。在这种存在溢出效应的履约业务场景中,实验有时需要在地理上隔离样本,以避免或者减少溢出效应,一种典型的做法是依据地理位置将一个城市划分为两个半城,将实验组和对照组之间的运力溢出等限制在半城交界处,将溢出效应的影响尽量降至最低。 小样本:履约策略大多以配送区域为基本单元,即使是区域溢入溢出效应模型也通常要求配送区域数量至少超过20个。但是部分城市规模较小,可供分析建模的配送区域数量达不到该要求,因此也无法采用随机分组+溢出效应建模的实验方案。
策略和产品的特殊性:部分策略和产品的特殊性限制了随机分组。例如,配送区域优化策略考虑在保障整体覆盖范围不变且区域之间不重叠的约束下,对区域进行边界优化甚至合并,然而对于2个相邻的区域,在该约束下,优化A区域边界必然会导致B边界跟随变化,因此从产品形态上无法实现A区域边界变更但B区域边界维持不变,此时不能考虑按区域随机分流。
综上所述,考虑到美团履约业务场景的特殊性,许多实验无法采用随机对照实验准确量化策略效果,因此发展一套标准的准实验设计与评估流程尤为必要。接下来,我们着重介绍经典的准实验方法——双重差分法,关于双重差分法的衍生和其他准实验方法,请参考文末的拓展部分。
5.1 双重差分法
| 5.1.1 方法概述
双重差分法(Difference in differences,简称DID)的基本思想,就是用实验后的实验组、对照组差异减去实验前的实验组、对照组差异,来估计策略在实验组上的效果(ATT),图5-1直观展示了该思想。下面先从单重差分开始,逐步解析双重差分法。
实验组-对照组(横截面单重差分法):即用实验后实验组的观测值减去实验后对照组的观测值得到,来估计策略效果。但是在无法随机分配实验组和对照组的情况下,两组之间往往存在固有差异,因此简单地使用实验组减对照组的估计结果可能会存在偏差。 实验后-实验前(时间序列单重差分法):即用实验后实验组的观测值减去实验前实验组的观测值得到,来估计策略效果。但是随着时间推移外部条件发生变化,即使不施加策略,实验组指标也可能会随时间自然变化,因此使用实验后减实验前的估计结果往往也存在偏差。
消除了两组之间的固有差异,这就是双重差分法的基本原理。
| 5.1.2 评估原理
② 对每个个体的变量取平均值,得到:
③ 相减得到下式,其中,,:
④ 再使用最小二乘法计算该模型,得到对系数的估计,可以证明使用个体内差分估计法和最小二乘虚拟变量估计法得到的结果一致。
| 5.1.3 平行趋势分组
随机划分2个半城为实验组和对照组; 使用实验前数据,对所有目标指标和护栏指标做平行趋势检验,根据通过检验的模型和实验组对照组差异对本次分组进行打分(通过固定效应模型平行趋势检验的分组得分更高,两组差异更小的分组得分更高); 重复步骤1和步骤2若干次,选取得分最高的分组作为最终分组。
2. 平行趋势检验只能检验实验前的平行趋势以证明假设的合理性,实验后的平行趋势是否满足是无法得知的,并且无法得到完全保证,在某些情况下平行趋势假设会受到挑战:
a. 有不可控的外部因素影响时,平行趋势假设可能被打破,此时可考虑适当剔除不可控因素影响日期再进行评估分析;
b. 评估指标的数值限定范围,可能影响到平行趋势。在履约场景中准时率指标时常被关注,准时率的数值范围在0~100%之间并且通常处于较高水位,在某些极端情况下如果平行趋势成立,实验组准时率的反事实结果可能会超过其上限100%,这时平行趋势假设与实际情况会略有出入。
| 5.1.4 实验案例
目标指标:xxxx; 护栏指标:xxxx。
策略和产品的特殊性:配送区域优化策略考虑在保障整体覆盖范围不变且区域之间不重叠的约束下,对加盟区域进行边界优化甚至合并,然而对于2个相邻的区域,在该约束下,优化A区域边界必然会导致B边界跟随变化,因此从产品形态上无法实现A区域边界变更但B区域边界维持不变,此时不能考虑按区域随机分流。这种情况下可以考虑将城市划分为两个半城,在实验半城内部调整优化区域边界,对照半城维持不变。
5.2 拓展与展望
| 5.2.1 双重差分法拓展
放宽平行趋势假设:例如学界的Honest DID为一种在平行趋势假设可能不成立的前提下,进行稳健推断(Robust Inference)和敏感性分析(Sensitivity Analysis)的方法。与直接假设平行趋势成立不同,Honest DID允许实验后平行趋势的违背,但是限制违背程度与实验前趋势(pre-trends)的违背并不存在太大差异或至少有迹可循。 条件平行趋势假设:通过匹配等方法寻找满足平行趋势的群体,例如基于实验群体PSM匹配合适的对照组群体,再应用DID进行评估等。 三重差分法:在双重差分基础上引入第三个差异维度(不受干预影响)更精确评估政策或干预措施影响的计量经济学方法,但也增加了数据需求和模型复杂性。
| 5.2.2 其他准实验方法
断点回归(Regression Discontinuity Design, RDD)根据某个可观测变量的阈值(断点)划分为实验组和对照组,分析主要集中在断点附近的样本上。断点附近可以认为有局部随机性,即断点附近的样本是否受处置是随机的,并且在是否处置之外的特征上没有系统性差异。
中断时间序列(Interrupted Time Series Analysis, ITSA)具体做法为在干预之前,使用不同时间的多次测量来创建一个模型(例如时间序列分析ARIMA模型),该模型可以估计干预介入后的相关指标的虚拟事实。干预后,再进行多次测量,并将关注指标的实际值和模型的预测值之间的平均差作为实验效应的估计。当然中断时间序列同样可应用于多个实验对象并且各个实验对象可在不同时间点接受实验干预(即设计上类似于多基线实验)。此外简单中断时间序列的一种拓展是引入实验变动然后将其反转,并可以选择多次重复此过程。
---------- END ----------
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...