Excel

【Excelで行う】一元配置分散分析

一元配置分散分析とは

一元配置分散分析とは,母平均の差の検定になります.母平均の差の検定の代表例としてt検定があります.t検定との違いは扱える標本の群数になります.

3つ以上の群間の比較を行いたい場合は,一元配置分散分析を行います.

一元配置分散分析の考え方は以下の図になります.業界ごとに年収を比較した例になります.

一元配置分散分析の考え方

比較する郡内(業界内)のデータのばらつきを誤差の効果,群間(業界ごと)のデータのばらつきを要因(業界が違うこと)の効果と考えます.

誤差の効果に対して要因の効果が大きい場合に値が大きくなるような検定統計量を求めます.

検定統計量は分散の比になるため有意差判定にはF分布を用います.

一元配置分散分析の検定統計量と棄却域の考え方

検定統計量が棄却域にある場合,要因による効果があるとなります.例では「業界ごとに年収に差がある」といった結論を得ることができます.

一元配置分散分析の手順

一元配置分散分析は以下の手順で行います.

仮説の設定
 帰無仮説は「各群の母平均に差がない」,対立仮説は「各群の母平均に差がある」として設定します.

② 有意水準の決定
 有意水準α=0.05または0.01とします.一般的には0.05で設定されます.

③ 検定統計量の算出
 郡内変動と群間変動から検定統計量を求めます.

④ p値の算出
 検定統計量とF分布表からp値を求めます.Excelの場合,検定統計量と同時にp値を算出できます.

⑤ 有意差判定
 ・有意水準<p値の場合,帰無仮説は棄却されない →「群間に差があるとは言えない」
 ・有意水準\(\geq\)p値の場合,帰無仮説は棄却され,対立仮説が採択される → 「群間に差がある」

仮説検定の考え方や用語については,以下のページで解説しています.

》仮説検定とは

例題で用いるデータと仮説の設定

例題では以下のサンプルデータを用います.4つの業界で働いている社会人に対して年収を調査した結果になります.

一元配置分散分析の例題用データ

帰無仮説は「各業界ごとに年収の差はない」となり,対立仮説は「比較した業界で年収に差がある」と設定します.

有意水準α=0.05で検定は行います.

Excelを用いた検定手順(データ分析ツールの利用)

Excel画面を用いて説明をします.使っているExcelのバージョンはOffice2016になります.

一元配置分散分析を行うツールを選択するために,「データ」タブの「データ分析」をクリックします.

データ分析ツールの選択

出てきた「データ分析」ウィンドウから,「分散分析: 一元配置」をクリックして「OK」を選択します.

一元配置分散分析の選択

「分散分析: 一元配置」における入力項目について説明します.入力例は以下のようになります.

一元配置分散分析の設定値の入力例

「入力範囲(W)」では事前に入力したデータのセルを選択します.データの範囲を選択する際に,ラベル(一行目の項目名)まで選択して「先頭行をラベルとして使用(L)」にチェックを入れます.

「データの方向」は「列(C)」にチェックを入れます.

「α(A)」では,分散分析の有意水準を入力します.一般的に使用する有意水準α=0.05とする場合は,”0.05”を入力します.

「出力先オプション」では「出力先(O)」を選択して任意のセルを選択してください.同じシート内の空白のセルを選択すると出力結果が見やすいです.

以上の項目を入力して「OK」をクリックすると出力指定したセルに以下の表で一元配置分散分析のp値と検定統計量が出力されます.

一元配置分散分析の出力結果

例題では,p値が0.0006..であることが分かります. p値 < 有意水準α=0.05であるため帰無仮説は棄却され対立仮説が採択されます.よって「業界によって年収は異なる」といった結論が得られます.

p値以外の出力結果は以下のような意味になります.ページ上部の「一元配置分散分析とは」と合わせて理解してみてください.

以上がExcelを用いた,一元配置分散分析になります.

》正しく理解したい!p値とは
》検定結果を図で示す

補足① 片側検定について

分散分析では,片側検定はなく両側検定のみになります.

補足② 効果量の求め方(Excel版)

仮説検定の結果として重要な効果量の求め方について,Excelを用いて解説します.

》仮説検定の結果はp値だけでは不十分?(効果量とは)

一元配置分散分析の効果量η2(イータ)は以下の式で求めることができます.

一元配置分散分析の効果量の計算式

SSBは郡内(要因)の偏差平方和,SSは全体の偏差平方和になります.Excelではデータ分析ツールの結果を利用して以下のように求めることができます.

Excelを用いた一元配置分散分析の効果量の計算例

 ※ C14セルの入力式:=H14/H17

効果量η2値の目安としては次のようになります.

【効果量η2の目安】 小:0.01  中:0.06  大:0.14

例題において効果量は大きいため,業界間の年収には大きな差があると言うことができます.

効果量η2はカテゴリーデータと量的データの関係性を示す,相関比という統計量になります.

》相関比とは

補足③ 多重比較との違いついて

一元配置分散分析では,3群以上の標本に対して母平均に差があるかを調べます.検定結果としてはどれかの標本に差があるという判断をすることができますが,どの群とどの群に差があるかを特定することはできません.

分散分析と多重比較の違い

3群以上の標本に対して2つの群ごとに検定を行い,どの群とどの群が異なるかを調べる際は多重比較という手法を用います.

》多重比較とは

補足④ 分散分析の種類

分散分析という手法は一元配置分散分析以外に,反復測定分散分析や二元配置分散分析といった手法があります.

それぞれの手法の違いや分散分析については以下のページで解説しています.

》分散分析とは

補足⑤ 一元配置分散分析を行う前提条件

一元配置分散分析を行う際の扱うデータの前提条件について紹介します.

① 対応のない場合
 一元配置分散分析は対応のある群(同一個体)のデータに対しては用いることができません.対応のある場合は,反復測定分散分析を行う必要があります.

》対応のある・対応のないとは

② 正規分布に従う
  分散分析は,パラメトリックな検定になります.用いるデータが正規分布に従うと仮定できる場合に使うことができます.正規分布でない場合は,ノンパラメトリック検定であるクラスカル・ウォリスの検定を行います.

》正規性の調べ方
》クラスカル・ウォリス検定

③ 比較するグループの分散が等しい
  比較する群の分散が等しい場合に一元配置分散分析を行います.3群以上の等分散性はバートレット検定で調べることができます.分散が等しくないときは,ウェルチの検定を行います.

》バートレット検定