データの分布を示すグラフである箱ひげ図について,見方やかき方について解説します.
Excelを用いて様々なパターンの箱ひげ図の作り方,特に横向きの箱ひげ図の作り方についても紹介しています.
箱ひげ図とは
箱ひげ図とは,データの分布を示すグラフになります.イメージとしてはデータの分布を示すグラフとしてよく使われるヒストグラムを90°回転させたグラフになります.
箱ひげ図ではデータの分布を4つに区切って表します.各要素は以下の図のようになります.
外れ値:最小値から最大値の間に入らないデータ
最大値:箱の上端+箱の長さ(四分位範囲,IQR)×1.5の範囲にある最大のデータ
第3四分位値:上から数えて25%のデータ
第1四分位値:下から数えて25%のデータ
最小値:箱の下端+箱の長さ×1.5の範囲にある最小のデータ
箱ひげ図では最小値から最大値を単純に4分割するのではなく四分位値を用いてデータの個数で分割します.そのため,4分割した中心の値は中央値を意味します.
ひげの長さ(外れ値としない範囲)はIQRの1.5倍が一般的な基準として用いられますが,箱ひげ図によっては2倍など異なる基準を用いる場合もあります.
平均値は箱ひげ図によって表示しない場合もあります.
箱ひげ図の読み取り方
箱ひげ図の見るべき1番のポイントは,データの分布(ばらつき具合)になります.下図のように社会人の年収に関する箱ひげ図を例に説明します.
ひげや箱の長さはデータのばらつき具合を示します.A社とB社を比較して,A社の方がひげの長さ(最小値と最大値の距離)が長いため従業員の年収の幅が広いということがわかります.逆にB社はA社と比較して,年収の幅が狭いということがわかります.また,箱の長さを比較するとB社の方が短いためより中央値付近にデータが集中していることがわかります.
箱ひげ図は中央値も表現されているため,2つの会社の従業員の年収を中央値で比較することもできます.中央値で比較するとB社の方が年収が高いということがわかります.
これらのことからB社の方がA社と比較して給与水準が高く,最低でもA社の中央値と同程度の額であることがわかります.
箱ひげ図は外れ値を表現することができるので,後続の統計解析において除外すべきデータを見つけることもできます.
箱ひげ図の作り方
箱ひげ図はExcelを用いて作成することが可能です.しかし,横向きに並べることや細かい表示設定をすることは難しいです.
本サイトでは下記Excelを用いた方法に加えて,StaatAppを用いた作成方法を紹介しています.StaatAppとは任意のデータを数クリックするだけで統計解析ができるPC用アプリです.Excelと比較しても簡単かつすぐにグラフ作成を行うことができます.
また,StaatAppでは箱ひげ図以外にもヒストグラムやバイオリンプロットを作成することができます.
》StaatAppで作成する箱ひげ図
》統計解析アプリStaatAppとは
参考文献と同じグラフが作成したい!けど,Excelでは難しい…
研究データを取りまとめて,論文執筆を行う際に以下の悩みはないでしょうか.
・参考文献と同じグラフを作成したいけど,Excelなどの表計算ソフトでは対応できない
・有料ソフト(SPSSなど)でも,参考文献と同じグラフを作成できない
・RやPythonで描画したいがプログラムの書き方がわからない
実際に既往研究と同じようなグラフを描画するためには,統計ソフトだけで対応することが難しく,RやPythonを用いたプログラミングが必要な場面が多々あります.
そこで本サイトでは,グラフ作成に関する代行,描画用プログラムの作成サービスを提供しております.本サービスではチャットで連絡を取りながらご希望のグラフを作成したり,お手元のデータで自由にグラフを描画できるプログラムの作成を行っています.
Excelを用いた箱ひげ図の作り方
Excelではグラフ作成ツールを用いて簡単に箱ひげ図を作ることができます.
作成例として,ある会社の従業員の年収分布を箱ひげ図で表します.箱ひげ図に必要なデータを以下のように入力します.
データを入力したら,箱ひげ図に用いる値の範囲をドラッグして選択します.サンプルサイズが大きくてドラッグが難しい場合は,値の範囲の左上のセルから「Ctrl + Shift + →」と「Ctrl + Shift + ↓」を押すことで一括選択が可能です.
データを選択した状態で,挿入タグのグラフからヒストグラムのようなアイコンを選択後,箱ひげ図を選択することで
デフォルトで以下のようなグラフが作成されます.
箱ひげ図の設定項目
Excelにおける箱ひげ図の設定項目について紹介します.
作成した箱ひげ図の任意の箱を選択した状態で右クリックを行い,「データ系列の書式設定」を選択することで画面右側に以下のようなウィンドウが表示され,設定を変更することができます.
各設定項目の意味は以下のようになります.
項目名 | 説明 |
要素の間隔 | 箱ひげ図の間隔を設定. |
内側のポイントを表示する | 最小値から最大値の間に分布するデータをプロットする. |
特異ポイントを表示する | 外れ値を表示する. |
平均マーカーを表示する | 平均値の位置をプロットする. |
平均線を表示する | 系列ごとの平均値を結ぶ直線を表示する. |
四分位数計算 | ・包括的な中央値 サンプルサイズが奇数の場合中央値が計算に含められる ・排他的な中央値 サンプルサイズが奇数の場合中央値が計算から除外される |
データが二項目ある場合の作り方
データの項目(変数)が2つあり,以下のような箱ひげ図をExcelで作成する方法を紹介します.
会社と年齢という2つの変数について,箱ひげ図を作成します.箱ひげ図の表示形式はセルへの入力形式で決まります.以下のようにデータを入力します.
表示形式を変更して以下のようなグラフを作成する場合は,
以下のようにセルにデータを入力します.
横向きの箱ひげ図の作り方
論文などでよく使われる横向きの箱ひげ図の作り方を解説します.
横向きの箱ひげ図はここまで説明した箱ひげ図グラフでは作成することができないため,横棒グラフを利用して作成する必要があります.
箱ひげ図を作成するために,以下のような表を作成します.説明のため画像は見切れていますが,サンプルサイズはn=21になります.
B-E列は会社ごとの年収を示した,元データになります.
元データから以下のようにQUARTILE関数を用いて,四分位値とグラフ用データを作成します.
グラフ用データを作成したら,「G11:J13」のセル範囲を選択した状態で,「挿入」→「縦棒/横棒グラフの挿入」→「積み上げ横棒」を選択します.
以下のようなグラフが作成されます.
データの並び順を変更します.グラフ範囲内を右クリックして,「データの選択」を選択します.凡例項目(系列)の順序を逆にします.
系列の順序を逆にしたら,「OK」を選択します.
※ 横軸の値が数値でなくなった場合は,「軸の書式設定」→「表示形式」→「カテゴリ」を”標準”にします.
横棒を箱にするために,系列3を削除します.グラフ内の系列3(灰色部分)を選択した状態で右クリック,「データ形式の書式設定」から「塗りつぶし」を”塗りつぶしなし”,「枠線」を”線なし”にします.
グラフが以下のように箱になります.
同様の方法で系列1と系列2の塗りつぶしと枠の色を任意の色に揃えます.
ひげ部分の表示を行います.グラフ内の系列1を選択した状態で画面上部の「グラフのデザイン」→「グラフ要素を追加」→「誤差範囲」→「その他の誤差範囲オプション」を選択します.
「方向」は”正方向”,「誤差範囲」は”ユーザー設定”を選択して,「値の指定」をクリックします.
「ユーザー設定の誤差範囲」で「正の誤差の値」に,グラフ用データの「最大値-75%」を選択して「OK」をクリックします.上側のひげが作成されます.
同様に下側のひげを作成します.グラフ内の表示を消した系列3部分を選択して,「誤差範囲の書式設定」を行います.
「方向」は”負の方向”に設定して,「ユーザー設定の誤差範囲」で「負の誤差の値」にグラフ用データの「25%-最小値」を選択して「OK」をクリックします.下側のひげが作成されます.
最後に縦軸の設定を行います.グラフ範囲内を右クリックして,「データの選択」を選択します.横(項目)軸ラベルの「編集」をクリックします.
軸ラベルの範囲を選択して「OK」をクリックします.
空白の行のチェックを外して「OK」をクリックします.
不要な項目が削除され,縦軸に項目名が表示されます.以上が横向きの箱ひげ図の作り方になります.
※ 縦軸の順序を反対にしたい場合は,軸の書式設定を以下のように設定します.
箱ひげ図とバイオリンプロット
箱ひげ図とバイオリンプロットはどちらもデータの分布を表すグラフで用途も似ています.以下の図は同じデータに対して作成した箱ひげ図とバイオリンプロットになります.
箱ひげ図の利点は,四分位値を図示するので中央値の位置などが明確にわかります.
バイオリンプロットは四分位値がどこに位置するかわかりませんが,特にCのグラフのようにデータが滑らかな山型に分布していない場合でも,分布の特徴を把握することができます.(箱ひげ図のCのグラフではばらつきが小さい分布としか読み取れません.)
グラフの選び方
統計解析においてグラフは様々な種類があります.分析対象のデータ・分析の目的に対して最適なグラフの選び方について,以下のページで解説しています.