在实际的效率评估工作中,不是所有的营销活动都做了AB实验,也不是所有的公司都将PSM做了模型产品化,在没有AB实验和PSM建模的情况下,有其他的方法可以进行评估吗?今天给大家介绍一种比较常用也是比较容易操作的分析方法,叫做双重差分法。
一、DID介绍
1.1 DID概述
双重差分法DID英文名Differences-in-Differences,别名“倍差法”,小名“差中差”。双重差分法估计的本质就是面板数据固定效应估计,双重差分简单理解就是差分两次。作为政策效应评估方法中的一大利器,双重差分法受到越来越多人的青睐,概括起来有如下几个方面的原因:
(1)很大程度避免内生性问题的困扰:政策相对于微观经济主体而言一般是外生的,因而不存在逆向因果问题;
(2)缓解了遗漏变量偏误问题;
(3)传统方法下评估政策效应,主要是通过设置一个政策发生与否的虚拟变量然后进行回归,相较而言,双重差分法的模型设置更加科学,能更加准确地估计出政策效应;
(4)双重差分法的原理和模型设置很简单,容易理解和运用;
1.2 DID模型
基准的DID模型设置如下:
其中,du为分组虚拟变量,若个体i受策略实施的影响,则个体i属于处理组,对应的du取值为1,若个体i不受策略实施的影响,则个体i属于对照组,对应的du取值为0。dt为策略实施虚拟变量,策略实施之前dt取值为0,策略实施之后dt取值为1。du·dt为分组虚拟变量与策略实施虚拟变量的交互项,其系数a3就表示了策略实施之后的净效应,即可用于评估策略的效果。
为什么a3就能够体现出策略的净效应呢?这一点可以通过下表来体现(下表也反映了双重差分法五个字的真正含义):
双重差分法的基本思想就是通过对策略实施前后对照组和实验组之间差异的比较构造出反映策略效果的双重差分统计量,将该思想与上表的内容转化为简单的模型(1),这个时候只需要关注模型(1)中交互项的系数a3,就得到了想要的DID下的策略净效应。可以用下图体现DID的思想:
模型(1)是一个只有分组虚拟变量du和策略实施虚拟变量dt的简单模型,构成的多项式回归方程也比较简单,在实际应用到自己的策略评估中,影响元素不会只有两个,因此,模型中的变量也会不止两个,需要具体问题具体分析。
双重差分方法最重要的一个估计是组之间具有共同趋势,也叫共同效应,就是假设两个组未施加策略的情况下具有相同的变化趋势。如果未施加策略的情况下两个组不具有共同趋势,那DID方法无法发挥作用,因为此时得到的系数a3受到其他元素影响,不能体现策略实施带来的效果。因此,在使用DID做策略评估之前,需要进行DID的稳健型检验,其中主要进行共同趋势的检验,确保应用DID可行。
二、DID实操
假如现在市场营销部进行了一次广告投放,然后让你评估一下这次广告投放是否有效,评估是否有效的标准是“是否带来了GMV增量”。运营同学在日常评估中,最常见的方式就是前后比:如下所示,广告触达的用户中,投放前的GMV是100万,投放期间的GMV是150万,那么广告投放带来GMV增加50万。那这50万就真的全部是这次广告投放带来的增量吗?
很显然不太可能,因为广告投放前和广告投放期间天然的就有一个时间差,比如投放前是4月份,广告投放期是5月份,5月份自然的多了五一节等节假日,对于旅游相关的企业来说,节假日自然而然交易就会上涨。因此,这个时候就要用到上面提到的双重差分法,在增量的基础上,减去一个自然的增量。
选择那些用户作为自然增量呢,工作中常见的有以下几种:
1、直接采用大盘非广告触达用户,优点是简单粗暴,参考大盘自然趋势即可,缺点是广告触达的用户可能本身就是更加容易带来GMV的用户,而未被广告触达的用户可能相对就不够活跃,GMV增长就比如广告触达用户。
2、利用第三方的网民样本PANEL库,从PANEL库中匹配出在公司有访问的目标用户群,其中被广告触达的为实验组,未被广告触达的为对照组,优点PANEL库基本可以代表整体网民,通过是否被广告触达筛选出实验组和对照组,缺点是如果公司的广告投放目标用户是PANEL库中的某一小部分如某个城市群体,那么最终的结果可能会有很大误差。
3、通过PSM方法筛选大盘非广告触达用户,这个其实就是上一次文章分享PSM方法中提到的PSM+DID,主要是PSM建模构建对照组,然后通过DID进行误差修正。由于本文主要还是介绍无法使用AB实验和PSM建模的情况下如何进行评估,所以此处的PSM+DID也不赘述了。
好,假设我们对照组也构建好啦,如下表所示,那么净GMV增长就是30万,表示虽然被广告触达的用户交易额增长了50万,但是如果不投广告这些用户自然也有20万的交易额增长,所以最终净GMV增长是30万。
三、后记
双重差分DID在日常运营工作中的确是最快最容易上手的评估方式,但是往往准确性也不如AB实验。如果要真的用于决策一个项目是否值得投入更多的钱,建议在策略不变的基础上做多期的DID评估,看效果值是否稳定。
-END-