徹底解説

検定方法の選び方

統計的仮説検定には様々な種類があります.扱うデータの種類や標本数によって用いる検定方法が異なります.

一般的に使われている統計手法をフローチャートと標本数,比較に用いる統計量の観点から整理しました.

フローチャートで選ぶ検定方法

代表的な検定方法の選び方は,以下のフローチャートになります.(日本で最もわかりやすいかつ,正確なフローチャートです!)

検定方法選択フローチャート

検定方法を選ぶ際の主な観点は4つになります.

データの種類
対応のある・対応のない
正規性のある・ない
・標本数

標本数についての観点・選び方は本ページで紹介しています.

主な検定手法の考え方や計算方法は以下のページで解説しています.

標本数ごとの検定方法一覧

標本数の観点から検定方法の分類・選び方について解説します.

標本数と比較する統計量について以下の表に整理しました.

標本数
名称
データの種類
代表的な検定手法
1標本 母平均の検定 量的 1標本のt検定
母比率の検定 量的・質的 母比率の検定(z検定),二項検定
母分散の検定 量的 母分散の検定
2標本 平均の差の検定 量的 対応のあるt検定,ウェルチのt検定
比率の差の検定 量的・質的 比率の差の検定(z検定),独立性の検定
等分散の検定 量的 F検定
代表値の差の検定 量的・順位 マンホイットニーのU検定
3標本以上 分散分析 量的 一元配置分散分析
等分散の検定 量的 Bartlett(バートレット)検定
代表値の差の検定 量的・順位 クラスカル・ウォリス検定
多重比較 量的・順位 ボンフェローニ補正,テューキー法

特定の値と1つの標本の比較

特定の値と標本の統計量を比較する検定方法について紹介します.

1群の検定(one sample test)では,既知の統計量(目標値など)と観測された1つの検定統計量の比較を行います.比較を行なう統計量によって検定の方法が異なります.

① 特定の値と標本平均の検定

1群の検定で最も使われる検定方法です.”母平均の検定”や”1標本の平均の検定”と呼ばれる手法です.

代表的な手法は以下になります.

母分散が既知の場合:z検定
母分散が未知の場合:t検定(普通はこっちを行なう)

② 特定の比率と標本比率の検定

母比率の検定と呼ばれる手法です.扱うデータが質的データである場合に特定の比率(目標値)とのクロス集計表を作成してから行なうことが多いです.

例えば,ある疾病の一般的な罹患率が5%であるのに対して,20代の男性の罹患率が8%であったとします.20代男性はその疾病にかかりやすいか調べたい場合に母比率の検定を行います.

代表的な手法は以下になります.サンプルサイズが小さい場合はノンパラメトリック検定を行います.

大標本(サンプルサイズが100以上)の場合:母比率の検定(z検定)
サンプルサイズが100未満の場合:二項検定,適合度の検定フィッシャーの正確確率検定

③ 特定の分散と標本分散の検定

母分散の検定と呼ばれる手法です.母分散の検定は,製品の品質を検証する際によく用いられます.

例えば,ある工場で作られた製品の重量の標準偏差を計算した結果250gであることがわかりました.その製品の基準重量として設定している200gからばらつきに差があるか調べたい場合に母分散の検定を行います.

》分散・標準偏差とは

Χ2分布を用いて検定を行います.

統計解析アプリStaatApp

2つの標本の比較

2群の検定(two sample test)は観測された2つの標本に差があるか調べる際に行います.1群の検定と同様に比較に用いる統計量によって検定方法が異なります.

2群の検定では,対応のある場合と対応のない場合で検定方法を使い分ける必要があります.

》対応のある・対応のないとは

① 平均の差の検定

2群の差を検定する際に最もよくに使われる手法です.2群を比較する際は,平均の差の検定を行えるかを考えてから他の検定方法を検討するとよいです.

平均の差の検定はパラメトリック手法であるため,標本の母集団が正規分布に従う必要があります.

代表的な手法は以下になります.ウェルチのt検定は等分性の仮定が必要ない万能な検定方法になります.

対応のある場合:対応のあるt検定
対応のない場合:対応のないt検定ウェルチのt検定

② 比率の差の検定

比率の差の検定は,クロス集計表の結果(比率)から質的データの差を比較する場合によく行われます.

サンプルサイズが100以上の場合は2群の標本比率の差が正規分布に従うためz検定が可能です.100未満の場合はノンパラメトリック検定を行います.

代表的な手法は以下になります.

対応のある場合:マクマネー検定
対応のない場合:比率の差の検定(z検定),独立性の検定フィッシャーの正確確率検定

③ 分散の差の検定

等分散の検定は主に,対応のないt検定を行なう際の条件である母集団の等分散性を判定するために行います.(対応のある場合は同一個体であるため等分散性は保証されています)

対応のない2群に対して等分散の検定を行い,帰無仮説が棄却された場合(分散が等しいとは言えない場合)はウェルチのt検定を行います.

実践では多重性の問題から等分散の検定を行わずにウェルチのt検定を行なうことも多いため,あまり使うことはありません.2群のサンプルサイズが近い場合は分散は近いと仮定して対応のないt検定を選択する場合もあります.

等分散の検定ではF検定を行います.

④ 代表値の差の検定

代表値の差の検定は,平均の差の検定のノンパラメトリック版です.扱うデータが量的データで母集団が正規分布に従わない場合や,順序尺度である場合に行います.

正規分布に疑いがある場合にノンパラメトリック検定も行い,検定結果をより確かなものするといった使われ方もあります.代表値の差の検定では,2群のデータを順位データに変換してから検定統計量を求めます.

代表的な手法は以下になります.

対応のある場合:符号検定,ウィルコクソンの符号順位検定
対応のない場合:マンホイットニーのU検定(ウィルコクソンの順位和検定)

アンケートで得られたデータ分析でよく使われます.

》アンケート調査の計画・分析方法

3つ以上の標本の比較

3群以上の検定では,多重性の問題から単純に2群の検定を繰り返し行なうことはできません.

》検定を繰り返してはいけない理由(第一種の過誤)

3群以上に対して差があるかを判定するには,多重比較や分散分析といった手法を行います.

① 分散分析(ANOVA)

分散分析は3群以上のデータに対して差があるかを判定する統計手法です.

パラメトリック検定であり,等分散性がある場合のみに行なうことができます.

分散分析には一元配置分散分析や二元配置分散分析などの手法があり,対応のある・対応のない場合や要因の数によって使い分ける必要があります.

》分散分析とは(さらに詳しく)

② 分散の差の検定

3群以上の分散の差の検定は,分散分析の事前検定として用いられます.

分散の差の検定の結果,等分散性があると言えない場合は3群以上のウェルチの検定やクラスカス・ウォリス検定を行います.

主な検定手法は以下になります.正規性があるかでバートレット検定とルビーン検定を使い分けるのが一般的です.

サンプルサイズが等しい場合:Hartley(ハートレー)検定
正規性がある場合:Bartlett(バートレット)検定
正規性がない場合:Levene(ルビーン)検定

③ 代表値の差の検定

代表値の差の検定は,一元配置分散分析のノンパラメトリック版です.扱うデータが量的データで母集団が正規分布に従わない場合や,順序尺度である場合に行います.

代表値の差の検定では,順位データに変換してから検定統計量を求めます.2群での代表値の差の検定を3群以上に拡張した手法となります.

代表的な手法は以下になります.

対応のある場合:フリードマン検定コクランのQ検定
対応のない場合:クラスカル・ウォリス検定

④ 多重比較

分散分析や代表値の差の検定では,多群間で差があることを判定できますがどの群に差があるかを判定することはできません.

3群以上のデータに対してどの群間に差があるかを判定する手法が多重比較になります.多重比較は3群以上の差の検定の総称であるため様々な検定手法があります.

2群の差の検定同様にデータに対応のある場合・ない場合,正規性がある場合・ない場合で使い分ける必要があります.

》多重比較の種類・選び方

検定手法選びで失敗したくない方へ

StaatではDiscord(コミュニケーションツール)を用いて,データ分析に関する質問・相談を受けつけています.

どの検定方法を使えばよいかわからない方や,論文や研究で用いるため誤った手法で行いたくない方はお気軽にご相談ください.

➔ Discordで質問・相談する