統計的因果推論の1つである差分の差分法について,考え方や使い方を図と例題を用いて解説します.
前提条件やExcelを用いた計算方法についても解説しています.
差分の差分法とは

差分の差分法(Difference in differences, DID)とはある事象の介入ありと介入なしの群を比較して,介入なしの群の介入前後での差分を時間による影響と考え,介入ありの群の介入前後での差分から取り除くことである事象の影響度を調べる解析手法です.
差分の差分法を用いることで,交絡因子になりやすい時間や年齢の影響を排除して特定の要因(変数)による影響を調べることができます.
差分の差分法の具体例
社会人21人に関する以下のようなデータがあるとします.

このデータから副業している人の現在の年収と,副業を行っていなかった5年前の年収の比較を行うとします.通常の仮説検定であれば副業を行っている人を対象に対応のあるt検定を行い,有意差があれば副業は年収に影響を与えていると判定することができます.
仮説検定や単純比較を行った場合の問題点として,年齢といった年収に影響を与えている影響(交絡因子)を取り除かずに比較を行っている点です.例えば,年収は年齢に比例して高くなる傾向があるとします.この場合5年前との年収に差がある場合でも,それは年齢による影響で差が生じている可能性があります.

差分の差分法では副業をしていない人の年収の差分を,年齢による年収の差分と考えて副業をしている人の年収の差分から引くことで,年収に対する年齢の影響を取り除きます.残りの差分が副業による影響であると考えることができます.
平行トレンドの仮定
差分の差分法を行う前提条件として,平行トレンドの仮定があります.平行トレンドとは2群の比較を行うときにどちらも介入がない場合は,同じ変化(=折れ線グラフが平行)をするという意味です.

例として地域Aにおいて人口増加のための施策の効果を差分の差分法を用いるとします.地域Aと比較する地域Bは平行トレンドが必要です.地域Aと地域Bに平行トレンドがあるかを,観測期間で調べることはできません.(現実では地域Aで施策を行わなかった場合の人口変化は調べることができません.)
平行トレンドは過去のデータを用いて間接的に調べます.図のように過去の人口変化の推移が似ている場合,2つの地域は平行トレンドがあると判断できます.
観測期間に片方の地域の人口のみに影響を与えるイベントが発生した場合は,平行トレンドの仮定が崩れるため観測期間に標本に影響を与えるイベントの有無を調べることも重要です.2つの地域の人口に影響を与えるイベント(共通ショック)は問題になりません.
デメリット
差分の差分法のデメリットについて紹介します.
① パネルデータが必要
差分の差分法を行うためには,クロスセクションデータと時系列データを組み合わせたパネルデータを用いる必要があります.介入ありの群と介入なしの群について,長期間の観測データの作成または収集をする必要があります.
② 平行トレンドの仮定を満たすことが困難
時間による影響を取り除くために,介入する群と同様のトレンドがある群を探す必要があります.地域間の比較の例では,類似した人口トレンドがある地域を探す必要があり現実では困難な場合があります.
Excelを用いた差分の差分法
Excelを用いた差分の差分法の計算例について紹介します.
施策前後での人口の変化を調べるために,2つの地域を比較します.地域Bが施策(介入)を行った群で,地域Aが施策を行わなかった群になります.
計算例は以下のようになります.単位は万人とします.

【各セルの入力式】
・E3セル:=D3-C3
・E4セル:=E4-E3
・C5セル:=C4-C3
計算手順について解説します.
① 集計表の作成
パネルデータから集計表を作成します.計算例では時間が異なるデータを列に,介入が異なるデータを行にして集計をしています.集計方法は平均値や度数,比率のいづれでも可能です.
※ 人口は既に集計されたデータになります.
② 時間経過による差を求める【E3・E4】
時間経過による差を計算します.
地域Aの施策前後での人口増減は施策後の人口から施策前の人口の差になります.地域Bについても同様に差を計算します.
③ 群間の差を求める【E5】
各群の時間経過による差の差分を計算します.
地域Bの時間経過による差から,地域Aの時間経過による差を求めます.
結果は以下の図のように解釈することができます.

地域Bに行った施策の影響による人口増加は14万人であると考えることができます.
補足 統計的因果推論
差分の差分法はランダム化比較試験を行わずに変数間の因果関係を示したい場合に,交絡によるバイアスを取り除くために行う統計的因果推論の1つです.特に時間による影響を取り除くために計量経済学の分野で用いられます.
統計的因果推論の代表例としては層別解析や共分散分析,傾向スコアマッチングという手法があります.
【主な因果推論】
・共分散分析
・層別解析
・傾向スコアマッチング