多重比較とは
多重比較とは3つ以上のグループのうち,どのグループとどのグループが異なるのかを判断するための統計的手法になります.統計学的に説明すると,「3群以上の群間の差の検定」なります.
群間の差の検定としては,t検定がよく使われますが違いは扱うことができるデータのグループ数になります.t検定では2群の比較を行うことはできますが3群以上の比較を行うことができません.
3群以上に対して差を比較する場合,2群ごとにt検定を繰り返し行うことで差を判断する方法も考えられますが,多重性の問題が起きるため有意水準や限界値(分布)を調整する多重比較を用います.
3群に対して,各群間に対して差を検定を行うとします.この場合,検定回数は3回になります.差の検定を有意水準5%で3回繰り返し行うと有意となる確率は14.3%(=1-(1-0.05)3)に上昇します.5群の場合だと10回繰り返しになり有意水準は約40%に上昇します.
このように,群数が多くなるほど検定全体で考える有意水準が上昇するため,実際は統計学的に差がない場合でも有意差が出る(第一種の過誤)確率が上がってしまいます.これを多重性の問題と言います.
最初から2群だったとして検定・報告を行えばよいのでは?と思う方もいるかもしれません.本当は多群であったのに2群として検定を行い報告することは,p-hackingという統計学的な誤りになります.3群以上の差の比較を行う場合は必ず多重比較を行ってください.
分散分析との違い
多重比較と同様に3群以上の検定方法として,分散分析があります.
分散分析(一次元配置分散分析)は,3群以上のデータに対して全体として差があるかを判定する手法になります.分散分析の検定結果として有意差があった場合,どのグループ間に差があるのかまでは分かりません.
対して多重比較は,どのグループ間に差があるかを判定する手法になります.
多群に対する検定方法の選び方
3群以上の検定方法の選び方は以下になります.より詳しい多重比較の選び方は,次章以降で解説しています.
検定方法を選ぶ際の観点は以下の3つになります.
カテゴリーデータに対する検定方法である,カイ二乗検定とコクランのQ検定は多重比較とは言いません.
多重比較の選び方
多重比較の手法は様々なものが考案されています.それぞれの手法によって,メリットやデメリットがあるので,目的や扱うデータによって手法を選ぶ必要があります.
手法を選ぶ観点としては,以下の4点があります.
① 事前に分散分析が必要かどうか
基本的には分散分析で有意差がある場合に多重比較を行います.しかし,F統計量を用いない多重比較であれば,分散分析を行わずに検定を行うことが可能です.
② 対応があるか
扱うデータが対応があるかないかで手法が異なります.対応があるとは複数のグループのデータが同一標本(同じ人・物)から得ている場合で,対応がないとは異なる標本から得ている場合になります.
③ パラメトリック検定か
扱うデータの母集団が正規分布に従うと仮定できるかどうかで,パラメトリック検定の多重比較を行えるか判断します.正規分布に従うと仮定できない場合は,ノンパラメトリック検定の多重比較を行う必要があります.
④ 対照群との比較を行いたいか
多重比較では全てのグループ間の比較を行う手法と,特定のグループ(対照群)と他のグループの比較を行う手法があります.
ここからは,多重比較の手法の中でも特によく用いられるTukey-Kramer法・Bonferoni法・Dunnett法・Steel-Dwass法の4つの手法について説明します.これらの手法は分散分析が必要ない多重比較になります.
Tukey-Kramer法 (テューキー・クレーマー検定)
検出力が高いため,多重比較の中で最も一般的な手法になります.比較方法としては,全ての2群間を平均の差が大きいか否かで判断します.
似た手法としてTukey法がありますが,Tukey-Kramer法は比較するグループのサンプルサイズ(データ数)が一致しなくても検定を行うことが可能です.
Bonferoni法と比較するとグループ数が多い場合に有意差が出やすく,少ないときに有意差が出にくいです.
Bonferoni法 (ボンフェロー二補正)
様々なパターンで用いることができる万能な多重比較になります.統計量自体は関係無いため,扱うデータが正規分布に従わない場合や対応のない場合,対応のある場合の両方で用いることができます.
比較方法としては, 全ての2群間を平均の差を検定し,その際の有意水準は検定回数で割るという単純な方法となります.
Bonferoni法の欠点としては,比較するグループ数が多くなった際に有意差が出にくくなります.目安として5群以上の検定を行う場合に検出力が落ちます.
Dunnett法(ダネットの検定)
特定のグループと他のグループを比較したい場合に用いる多重比較になります.
Tukey-Kramer法と比較して有意差が出やすい手法になります.理由としては,特定のグループと他のグループとのみ比較するため,網羅的に全群を比較する場合より検定回数が少なくなるからです.(多重性の問題では検定回数が多くなるほど有意差は出にくくなります.)
Steel-Dwass法(スティール・ドゥワス検定)
対応のない場合のノンパラメトリック検定になります.
Tukey-Kramer法のノンパラメトリック版になります.比較方法としてはマンホイットニーのU検定を行い,比較回数に合せて検定統計量を補正します・
Tukey-Kramer法と同様にグループ数が多い場合に有意差が出やすく,少ないときに有意差が出にくいです.
多重比較の計算方法
多重比較は手法よっては複雑な計算が必要かつ,比較するサンプル数が多くなるほど計算量が膨大になります.
様々なデータに対して多重比較を行いたい場合や,計算結果を間違いたくない方は専用ソフトを使用することがおすすめです.
Staatでは多重比較を含む様々な統計解析を実行できるアプリStaatAppを販売しています.基本機能の利用は無料なので,お気軽にダウンロードしてお使いください.
》StaatAppで行う仮説検定
》統計解析アプリStaatApp
補足① 群数が多い場合
多重比較とは,複数回行う検定全体での有意水準を5%など定めた有意水準にするために,1回の検定の有意水準を小さい値にするという手法です.
例えばBonferoni法を用いて3群の多重比較を行う場合,差の検定は3回行うので有意水準5%とすると1回の差の検定の有意水準は3で割った1.7%となります.これだけでも,1回の検定で有意差が出にくくなっていることがわかります.5群の場合は検定回数が10回になり,1回の有意水準は0.5%となりさらに厳しくなります.
このように,多重比較ではグループ数を増えるほど有意差が出にくくなります.よって,そもそもデータを収集する段階で比較するグループ数は少なくすることが望ましいです.
予備実験をするというのも多群の多重比較を回避する有効な方法になります.予備実験の結果から効果がありそう(有意差がありそう)なデータを絞り,再度仮説を設定した上で本実験を行うという方法があります.特定のデータのみを報告する結果の対象にしたい場合に,再度データを取り直すというのがポイントです.
補足② 事前検定としての分散分析
多重比較は分散分析と関係性が深い検定方法です.
既に説明したように,F統計量を用いる多重比較(Scheffe法など)は一元配置分散分析を事前に行う必要があります.
また,因子が2つ以上の場合は二元配置分散分析を行い交互作用がある場合に多重比較を行います.二元配置分散分析や交互作用については以下のページをご覧ください.
補足③ 検定手法選びで失敗したくない方へ
StaatではDiscord(コミュニケーションツール)を用いて,データ分析に関する質問・相談を受けつけています.
どの検定方法を使えばよいかわからない方や,論文や研究で用いるため誤った手法で行いたくない方はお気軽にご相談ください.