多重共線性について,図や例題を用いて解説します.
多重共線性を示す指標であるVIFについて,Excelを用いた計算方法も解説しています.
多重共線性とは
多重共線性とは重回帰分析の説明変数間における関連性になります.説明変数間に強い関連性がある場合,多重共線性(マルチコ, Multi-collinearity)があると言います.
多重共線性がある場合,回帰係数の誤差が大きくなる問題が起こる可能性が高くなり推定値の信頼性が落ちてしまいます.
説明変数が2つの場合は,以下のように多重共線性を理解することができます.
説明変数x1と説明変数x2に多重共線性がある場合,説明変数に直線関係が成立して回帰平面が定まらない状態となってしまいます.回帰平面は回帰分析における推定値を意味しており,分析結果の信頼性が低いことを意味します.
多重共線性は特に実験から得られた観測データを扱う際に起きることがあります.多重共線性がある場合は,該当する説明変数を除く,もしくは主成分分析などで次元削減することで対策することができます.
VIF(分散拡大要因)
VIF(Variance Inflation Factor)は多重共線性の度合いを示す指標になります.VIFは説明変数間ごとに算出する値になり,以下の式で求めることができます.
Ri2はVIFを求めたい説明変数xiを目的変数,その他の説明変数を説明変数として回帰した際の決定係数になります.
多重共線性の基準としてVIF>10が目安になります.VIF>10の場合に説明変数間に多重共線性があると判定することが多いです.VIF=10は相関係数で換算すると約0.95であり,2変数の関連性が非常に強いこと意味します.
例題の設定
具体的に多重共線性について解説をするために,以下のように例題を設定をします.社会人10人の年収に関するサンプルデータになります.
年収を目的変数,その他を説明変数とした場合の多重共線性をVIFを求めることで調べます.
Excelでの計算方法
Excelを用いたVIFの計算方法について解説します.
以下のような表を作成することで,VIFを求めることができます.
各セルの入力式は以下のようになります.
・J3:=CORREL($D3:$D12,D3:D12)
・J4:=CORREL($E3:$E12,D3:D12)
・J5:=CORREL($F3:$F12,D3:D12)
・J6:=CORREL($G3:$G12,D3:D12)
・J9:=MINVERSE(J3:M6)
入力式と計算方法について解説します.
① 相関係数を求める
説明変数間の相関係数を計算します.相関係数はCORREL関数を用いて求めることができます.
入力式例のように絶対参照($マーク)を用いることで,その他の列はコピーするだけで相関係数を求めることができます.
② 逆行列を求める
相関係数の逆行列を計算します.逆行列はMINVERSE関数を用いて求めることができます.
【Excel365を用いた場合】
空白のセルに,MINVERSE(“相関係数の範囲”)を入力することで関連するセルにも値が入力されます.
【Excel365以外の場合】
相関係数と同じ範囲のセルを選択します(例題では,J3からM6の範囲).選択した状態で,数式入力バー(セル領域の上部)にMINVERSE(“相関係数の範囲”)を入力して,「control」+「shift」+「Enter」を押します.選択範囲に値が入力されます.
求めた逆行列のうち,以下の赤枠で囲まれたセルの値が各説明変数のVIFになります.
VIF>10である説明変数は無いため,変数間の関連性は低く多重共線性は無い判断することができます.
統計解析アプリ
Excelでは数式を入力して計算する必要があります.統計解析アプリStaatAppではより手軽にVIFの算出・重回帰分析を実行できます.
詳細は以下のページで紹介しています.
》StaatAppで行う重回帰分析
》統計解析アプリStaatAppとは