回帰分析における回帰式の検証に用いる,残差プロットの解釈の仕方や作り方について解説します.
Excelを用いた作成方法についても解説しています.
残差プロットとは
残差とは観測データと予測値の差になります.
残差プロットは残差と予測値の散布図になります.残差プロットを作成して,データの問題やモデルの問題(回帰式の誤り)を見つけることを残差分析とも言います.
残差プロットの見方
データや推定したモデルに問題が無いと判断できる,理想的な残差プロットは以下のようになります.
① 分布に明確なパターン(線形など)がなく,無造作に分布してる.
② Y軸の原点付近の分布してる.Y軸方向の分布範囲が小さい.
③ 中央を中心の分布していて,対称性がある.円形に分布している.
残差プロットのパターンと対応方法
データやモデルに改善の余地がある残差プロットには,以下のようなパターンがあります.
① 外れ値がある
外れ値がある場合,モデルを作成する際に用いたデータの問題があることが多いです.該当データが正しいか確認を行い正しい場合は除外します.
② 曲線上の分布する
曲線のように非線形に分布する場合,推定したモデルに問題があることを意味します.線形の回帰式に対してこのような分布になった場合,線形ではなく2次関数など曲線の回帰式を用いた方が精度が上がります.
③ 分散が不均一
分布に偏りがある場合も推定したモデルに問題があることを意味します.図のように,予測値が大きくなるにつれて残差の絶対値が大きくなる場合は,被説明変数を対数変換すると精度が向上します.
Excelを用いた残差プロットの作り方
Excelでは残差プロットを回帰分析ツールで作成することができます.
残差プロットを作成ツールを選択するために,「データ」タブの「データ分析」をクリックします.
「データ分析」ウィンドウの「回帰分析」をクリックして「OK」を選択します.
「回帰分析」における入力例は以下のようになります.目的変数yを「年収」,説明変数xを「年齢」として回帰分析・残差プロットの作成を行います.
以下のようなグラフが作成されます.(デフォルト設定から若干デザインを変えています)
上記の残差プロットは分布が不均一のため,説明変数を対数変換することで回帰式の精度が向上するということがわかります.