統計解析におけるグラフを用いる重要性や,様々な分布を表すグラフについて解説します.
分布を可視化するグラフ
統計解析ではデータの分布を調べる・示すためにグラフがよく用いられます.代表的なデータの分布を表すグラフとしてヒストグラム(度数分布図)や散布図があります.

グラフを用いることでデータの傾向を視覚的に捉えることができます.また,統計解析の元データを効率的に示すことができます.
グラフを用いる重要性
統計学においてデータの特徴を示す基本統計量として,平均値や分散があります.分散はデータの散らばり具合を示す指標です.
以下のような平均値と分散が等しい2つのデータがあるとします.

基本統計量のみで考えると2つのデータは同じ特徴を持つと考えることができます.しかし,ヒストグラムを用いてデータの分布を比較すると異なることがわかります.
基本統計量はデータの特徴を要約するため,データ分析に必要な情報まで失っている可能性があります.適切なグラフを用いることで情報をなるべく失うことなくデータの特徴を知らべることができます.
外れ値を検出できるのもグラフを利用する大きなメリットです.

グラフを作成することで,明らかにデータ群から外れている値(外れ値)を検出することができます.データ分析を行う際に外れ値を含めて分析を行うと,本来期待している結果とならないことが多いため事前に外れ値の有無を調べることは重要です.
様々な分布を表すグラフ
データの分布を示すグラフとして基本になるのが,ここまでも紹介しているヒストグラムになります.

ヒストグラムは1つ1つの棒(ビン)の面積が階級ごとの度数を意味します.棒が長く密集しているほど,データがその階級に集中していることがわかります.ヒストグラムのデメリットは,ビン幅の定義によって見え方が大きく異なることです.ビン幅に定義はないためヒストグラムの見え方は作成者の主観となってしまいます.
ヒストグラムの次によく用いられるのが箱ひげ図になります.箱ひげ図はヒストグラムを90°回転させたようなグラフで,データの分布を四分位数で区切ったグラフになります.箱ひげ図はデータの正確な分布が捉えづらいといったデメリットがあります.特にヒストグラムの山が2つあるような,データが集中している値が2つあるような分布を表すことができません.
その他のグラフとしてはバイオリンプロットやストリッププロット,スウォームプロットがあります.これらのグラフはデータ群が複数ある場合に並べて比較しやすいといった共通するメリットがあります.

バイオリンプロットはヒストグラムを滑らかにしたようなグラフで,箱ひげ図では捉えづらい分布も表現することができます.近年は箱ひげ図よりもよく用いられる傾向があります.デメリットとしては作成するためにRやPython,有料統計解析ソフトを使用する必要があることと箱ひげ図に比較して知名度が低いことです.
ストリッププロットは直線状に全てのデータをプロットしたグラフになります.プロットの密集度でデータの分布を判断することができます.箱ひげ図やバイオリンプロットの上に重ねて用いることもあります.ストリッププロットのデメリットはデータ数が多い場合に,密集した値付近の密集度合いがわかりづらい点があります.
スウォームプロットはストリッププロットと同様に全てのデータを直線状にプロットし,重なりがある場合は横に広げてプロットしたグラフになります.データの密集度を横幅で判断することができます.
学術誌では元データの分布をより正確に示すために,スウォームプロットのような全データの情報が分かるグラフを推奨される場合があります.
分布グラフの作り方
ヒストグラムと箱ひげ図はExcelを用いて,比較的簡単に作成することができます.一方でバイオリンプロットやスウォームプロットはExcelでは作成することができません.
Excelで作成できない分布グラフはRやPython,有料の統計解析ソフトを用いて作成する必要があります.本サイトでは分布グラフをマウス操作だけで作成するPC用アプリ(StaatApp)を低価格で配布しています.グラフ作成のためにRやPythonを使いたくないという方や,なるべく安い価格で作りたいという方におすすめです.
》統計解析ソフトStaatAppとは
》StaatAppで行うグラフ作成
サンプルサイズが小さい場合
サンプルサイズが小さい場合,細かいデータの分布を示す分布グラフはあまり意味をなさなくなります.サンプルサイズが小さい場合や分布を意識する必要がない場合は,箱ひげ図や棒グラフ+エラーバーでデータのばらつきを示すことが多いです.
エラーバーは統計解析の1つである仮説検定の結果を示す際にもよく用いられます.
散布図・散布図行列
2つの量的変数の分布を表すグラフとしては散布図が用いられます.横軸と縦軸にそれぞれの変数を設定してグラフを作成します.

散布図を作成することで,外れ値の検出だけでなく2つの変数の相関関係まで調べることができます.
量的変数が複数ある場合は,すべての変数ごとに散布図を作成する散布図行列が利用されます.多変量解析を実施する前にデータの特徴・関連性を調べるためによく用いられます.

散布図行列の作成はRやPythonの利用が必要ですが,以下のページで簡単に作成する方法を紹介しています.
バブルチャート
3つの量的変数の分布を表すグラフとしてはバブルチャートがあります.

バブルチャートは散布図に加えてプロットの面積で3つ目の変数の値を示します.データ数が多い場合にプロットが重なってしまうといったデメリットがあります.
バブルチャート以外には等高線グラフのような,3次元グラフを使うといった方法があります.因みに4つ以上の量的変数に対しては,視覚的に表現することは難しいです.
StaatAppでは無料機能でバブルチャートを作成することができます.