徹底解説

因果推論

統計学において因果関係を調べる手法である因果推論について,図や具体例を用いて解説します.

因果推論の中で一般的に用いられる解析手法についても解説しています.

因果推論とは

因果推論の考え方

統計学における因果推論とは,観測データに対して結果に対する特定の要因のみの影響を調べるための手法です.

現実世界では事象と事象は複雑な因果関係があり,特定の要因による影響を調べるためにはそれ以外の要因による影響を取り除く必要があります.この特定の要因以外の影響を観測データに対して取り除く手法が因果推論になります.

因果関係を調べる難しさ

観測データに対して因果関係を調べる難しさを年収を例にして考えます.年収に関係がありそうな要因を図示すると以下のようになります.(あくまでも説明のための例です)

因果グラフ

現実世界において年収に影響を与える要因は,会社や年齢など多様にあると考えられます.

このような関係性があると仮定して,副業が年収に与える影響を調べるために副業を行っている人と行っていない人の年収を調査したとします.調査結果は以下のようになりました.

交絡因子による影響例

図のように平均年収は,副業を行っている人の方が少なかったとします.ここで問題なのが平均年収の差が全て副業による影響と考えることができない点です.例えば年齢は年収と副業の両方に影響してる可能性があり,年収は年齢に比例しているかつ副業を行っている人は若い傾向がある場合,図の結果は年齢による影響で差が生じているとも考えることができます.

年収には年齢以外にも多様な要因が影響していると考えられ,単純に年収と副業という2つのデータだけで比較して結論づけることはできません.

年収と年齢の因果関係を調べる場合も同様の問題が生じます.年収と年齢に関する散布図が以下の図のようになったとします.

相関関係と因果関係の違い

散布図から年収と年齢には直線関係があり,相関関係があると言うことができます.しかし,年収を目的変数,年齢を説明変数とした回帰分析を行い作成したモデルは,正しい因果関係を示しているとは言えません.

観測データから因果関係を調べる際は,結果に影響を与えている要因や結果と調べたい要因の両方に影響を与える要因(交絡因子)を含めて分析する必要があります.このように様々な要因を考慮して因果関係を調べる手法を因果推論と言います.

ここまでは観測データ,つまり既に存在するデータに対する因果関係を調べる場合の問題点を説明しました.しかし本来,因果関係を調べるためには実験から得られる実験データで分析することが重要です.

実験を行う前提条件として調べたい要因以外の条件を揃えることで,その他の要因による影響を取り除くことができます.無作為抽出を行うことで,標本の条件を揃えて実験を行う方法をランダム化比較試験と言います.因果推論はランダム化比較試験が行えない場合に用いる手法であると考えてください.

》ランダム化比較試験とは

主な因果推論の手法

一般的に用いられる因果推論について紹介します.詳細な使い方や具体例は手法ごとのページにて解説しています.

共分散分析
共分散分析

共分散分析は仮説検定と同様に,群間の差を比較する解析手法です.群間の差を比較することで群を分けている要因の影響を調べることができます.

共分散分析の特徴は,調べたい要因以外の影響を取り除いて比較することができるため検出力を上げることができます.イメージとしては回帰分析分散分析のような分析方法になります.

》共分散分析の詳細

層別解析
層別解析

層別解析とは比較する群をサンプルの属性(変数)ごとに分割して,分割したグループ(層)ごとに分析を行う解析手法になります.

層別解析を行うことで群ごとの比較では見つけることができなかった群間の差や,変数による影響を調べることができます.

》層別解析の詳細

傾向スコアマッチング
傾向スコアマッチング

統計学において異なるサンプルで,似ている要素(交絡因子)をもつデータを見つけてペアにすることをマッチングと言います.

傾向スコアマッチングとは,マッチングの際のペアを見つける基準として傾向スコアを用いる手法になります.

》傾向スコアマッチングの詳細

差分の差分法(DID)
差分の差分法の考え方

差分の差分法(Difference in differences, DID)とはある事象の介入ありと介入なしの群を比較して,介入なしの群の介入前後での差分を時間による影響と考え,介入ありの群の介入前後での差分から取り除くことである事象の影響度を調べる解析手法です.

差分の差分法を用いることで,交絡因子になりやすい時間や年齢の影響を排除して特定の要因(変数)による影響を調べることができます.

》差分の差分法の詳細

補足 交絡因子になりやすい要因

因果関係を調べる際に時間や年齢の影響は特に注意する必要があります.

ここまでも説明したように,年収に関しては年齢が上がるごとに多くなる傾向(特に年功序列の国では)がありその他の要因の因果関係調べる際には影響を取り除く必要があります.

因果関係を調べる際に,常に時間や年齢の影響がないか考える姿勢は重要です.