双重差分相比倍差法的好处（双重差分法DID入门必看）

怕身份不对 2022-11-11 14:46:06

双重差分相比倍差法的好处（双重差分法DID入门必看）(1)

双重差分(Differences-in-Differences,DID)，其常用于政策评估效应研究，比如研究‘鼓励上市政策’、‘开通沪港通’、‘开通高铁’、‘引入新教育模式’等效应时，分析效应带来的影响情况。

比如：两类地区A和B，在2020年A类地区没有开通高铁，B类地区没有开通。那么开通高铁对于GDP的影响情况如何呢？
涉及两个关键数据，分别是Treated和Time，此处Treated为地区（A和B两个地区），以及时间项Time(高铁开通前和开通后)。

同时研究‘开通高铁’参于gdp的影响，那么被解释变量Y即为gdp，与此同时还涉及可选的控制变量（控制变量为可选项，多数情况下并不需要），比如教育投入，人口或对外投资情况等，如下表说明：

特别提示：

Treated只能为数字0或1，且一定包括此2个数字。其用于标识研究‘效应’对应的组别，数字0标识‘控制组’，数字1标识‘实验组’，一定需要这样处理。

Time只能为数字0或1，且一定包括此2个数字。其用于标识研究‘时间’对应的组别，数字0标识‘before’（实验前），数字1标识‘After(实验后)，一定需要这样处理。

理论上，双重差分研究可在很大程度上避免数据内生性问题。‘政策效应’通常为外生项，因而不存在双向因果关系，比如开通高铁影响gdp，gdp同时影响开通开通。与此同时，双重差分也有着一定的前提性要求，通常其希望满足‘平行趋势假设’（Parallel Trend Assumption），即time项为0时，即比如开通高铁前，A类和B类两类地区的gdp数据需要无明显的差异性。

至于‘平行趋势假设’（共同趋势）的检验，其有多种检验方式。包括t检验法，‘交叉项’显著性检验法，F统计量检验法，图示法。具体说明如下：

针对‘交互项显著性检验法’或‘F统计量检验法’，时间项可能仅为2期（实验前和实验后），也可能为多期m期（m>2），那么哑变量设置后，放入分析的交互项为‘实验前时的交互项’，如下表说明：

关于哑变量说明：https://spssau.com/helps/otherdocuments/dummy.html

如果是使用t检验法，SPSSAU在进行DID分析时默认有提供，如果是使用‘交互项显著性检验法’或者‘F统计量检验法’，可先将时间项作哑变量处理后，与treated项作交互项，然后进行线性回归（SPSSAU通用方法里面的线性回归或计量研究里面的OLS回归均可）。如果是使用‘图示法’，则使用SPSSAU【可视化->簇状图】完成。
1 背景
某地区（实验组，B地区）通过法律将最低工资从每小时4.25美元提高中到5.05美元，但相邻的另一地区(控制组，A地区)保持不变。某研究人员收集实施新法律前后就业人数数据，使用DID差分法进行研究‘提高最低工资’是否有助于‘就业人数增加’，即提高最低工资是否会提升民众的就业积极性。

此案例时：treated为地区（数字0为控制组即A地区，数字1为实验组即B地区）。Time为时间（数字0为法律实施前，数字1为法律实施后）。研究的效应项即被解释变量Y为‘就业人数’。与此同时还有另外3个控制变量。
2 理论
双重差分法DID，其通常用于政策效应类研究。共涉及两项，分别是实验组别treated（数字0表示控制组，数字1表示实验组），和时间项time（数字0表示实验前，数字1表示实验后）。一般希望在实验前即time为0时，实验组别数据基本保持一致性，即满足‘平行趋势假设’。‘平行趋势假设’检验有多种方式，建议查看本页面中相关说明。

比如本案例可使用SPSSAU的簇状图进行‘平行趋势假设’查看，如下图可以看到，实验前时两个组别的‘从业人数’即效应水平基本完全一致，说明满足‘平行趋势假设’，因而可以继续分析，当然也可使用实验前时，控制组和实验组效应值的差异情况进行检验，SPSSAU默认有提供。

3 操作
本案例操作截图如下，案例中带3个控制变量，如果没有控制变量可直接不放入即可，如下：

4 SPSSAU输出结果
SPSSAU共输出5类表格，分别是DID模型描述统计，DID模型结果汇总，t 检验(Before)，t 检验(After)，OLS回归分析结果。说明如下：

5 文字分析

上表格展示不同实验组别，以及实验前后时的样本分布情况。本案例共有155个实验样本，77个为实验前，78个为实验后。

上表格展示DID模型最终结果。分别包括实验前和实验后时，控制组或实验组的效应值水平（特别提示，效应值是一种量化指标，并非被解释变量从业人数的平均值（但通常接近于平均值），数学原理上其为ols回归的回归系数值）。

上表格显示：在实验前before状态时，实验组和控制组的差分效应量为-0.611,并且没有呈现出显著性（p = -0.556>0.1），即说明实验前时，实验组和控制组的效应水平基本一致并没有明显的差异性，也即说明满足‘平行趋势假设’。

实验后after状态时，实验组和控制组的差分效应量为2.324，并且呈现出显著性（p = 0.024 < 0.05），即说明在实验后时间点时，实验组的效应值明显高于控制组效应值。

最终查看应该以diff-in-diff，即最终的双重差分值，上表格时，双重差分效应值为2.935且呈现出显著性（p = 0.045 < 0.05），也即说明双重差分效应显著，即说明‘提高最低工资’是否有助于‘就业人数增加’，提高的平均效应水平为2.935。

上表格展示实验前状态时，控制组和实验组两类别下被解释变量或控制变量的差异情况。通常仅关注被解释变量的差异性即可，从上表格可知，控制组和实验组并没有呈现出显著性（p = 0.978 > 0.05），也即说明实验前时控制组和实验组的‘从业人数’并没有明显的差异性，即说明数据通过‘平行趋势假设’。

上表格展示实验后状态时，控制组和实验组两类别下被解释变量或控制变量的差异情况。通常仅关注被解释变量的差异性即可，从上表格可知，控制组和实验组呈现出显著性（p = 0. 043 < 0.05），也即说明实验前时控制组和实验组的‘从业人数’呈现出明显的差异性，说明实验后状态下实验组和控制组的平均水平有着显著性差异，而且实验组(19.949)明显高于控制组（17.065）。

上表格展示OLS回归结果，其为DID差分模型的数学原理，比如上表格中treate*time这一交互项的回归系数值为2.935即为‘DID模型结果汇总’表格中的Diff-in-Diff效应值。
6 剖析
涉及以下几个关键点，分别如下：

如果为多期数据，比如实验前为2018/2019共2年数据，实验后为2021/2022共2年数据。那么需要处理成time为0和1，即实验前和实验后的数据格式

Treated只能为数字0或1，且一定包括此2个数字。其用于标识研究‘效应’对应的组别，数字0标识‘控制组’，数字1标识‘实验组’，一定需要这样处理。

Time只能为数字0或1，且一定包括此2个数字。其用于标识研究‘时间’对应的组别，数字0标识‘before’（实验前），数字1标识‘after(实验后)，一定需要这样处理。

'平行趋势假设'（共同趋势）的检验，其有多种检验方式。包括t检验法，‘交叉项’显著性检验法，F统计量检验法，图示法等，可查阅本页面上方说明。
,