オッズ比とは
オッズとは日常生活では競輪・競馬などの払戻金の倍率として使う言葉です.統計学におけるオッズは払戻金を意味するオッズとは計算方法や意味が異なります.
統計学においてオッズは,成功がa回で失敗がb回の際の比a/bを意味する言葉です.つまり,特定の事象が起きない確率に対する特定の事象が起きる確率であるので,オッズが大きいほど特定の事象が起きる確率が上がります.
オッズ比とは,2つの変数のオッズの比になります.オッズ比を用いることで特定の事象の起こりやすさを2つのグループ間で比較することができます.
オッズ比は結果に対する要因の分析を行う際に,よく使われる統計学的手法になります.
以下のように,副業に関する調査をクロス集計表に整理したとします.副業をしているかという結果に対して年齢が要因となっています.
副業をしている人のオッズは18/9で”2”という値になります.副業していない人のオッズは54/60で”0.33″という値になります.
オッズ比は2つのオッズの比であるので,6/0.33で”2.22″という値が得られます.オッズ比は1から離れているほど,結果に対して要因が強く影響していると判断することができるので,年齢は副業の有無に影響していると判断することができます.(正確には,信頼区間についても考慮する必要があります.)
オッズ比は統計的な尺度であり,オッズ比がこの値を超えたら影響があるといった基準値は存在しません.
Excelを用いたオッズ比の計算方法
Excelを用いたオッズ比の具体的な計算方法について紹介します.
例題として,先程用いた副業に関する調査結果を用いて説明します.
① クロス集計表の作成
オッズ比の計算を行う準備として以下のようなクロス集計表を作成します.
クロス集計表を作成する際の注意点としては,列(上側)が結果で行(左側)が要因になるように作成してください.
② オッズ比の計算
オッズ比は以下の式で求めることができます.
Excelでの計算式は以下のようになります.
オッズ比を計算している”G2”セルには=(C4/C5)/(D4/D5)という数式を入力しています.
以上がExcelを用いたオッズ比の計算方法です.
オッズ比の信頼区間と求め方
信頼区間とは,母集団から標本を抽出して分析を行った際に,特定の確率でとり得る値の範囲のことです.95%信頼区間であれば,同じ母集団から取り出した100個の標本を分析したとすると95回が収まる範囲のことを意味します.
20代・30代の副業の実態を分析する例では,社会全体の本当の値を求めるためには社会にいる全ての20代・30代の人からデータを収集する必要があります.しかし,現実では不可能なため研究や調査では社会の20代・30代を母集団として,特定の人数だけ抽出して1個の標本を作り分析を行います.
母集団から抽出した標本は母集団から見た際に,偏りがある可能性があります.偏り具合は1個の標本から予測することは可能なので,1つの標本から100個中95個の標本から得られる値の範囲を求めます(95%信頼区間).
標本から得られた値が信頼区間外にある場合は,その値は稀な値であり母集団に当てはまる値とは言えないといった判断をします.
オッズ比の信頼区間は以下の式で求めることができます.
式中のa,b,c,dはクロス集計表の各セルの値を示しています.
Excelで実際に95%信頼区間の上限値と下限値を計算してみます.
シート内で用いた計算式は以下のようになります.
・G5セルの入力式:=EXP(LN(G2)+(1.96)*SQRT(1/C4+1/D4+1/C5+1/D5))
・G6セルの入力式:=EXP(LN(G2)-(1.96)*SQRT(1/C4+1/D4+1/C5+1/D5))
計算結果より,上限値は5.36で下限値は0.92であることがわかりました.
オッズ比において,要因が結果に対して影響がある(統計学的に有意)と判断するためには信頼区間が1をまたがない必要があります.
例題では,信頼区間が1をまたいでいるため年齢は副業に影響があるかはわからないといった結論となります.
・オッズ比が1より小さいかつ信頼区間の上限値が1より小さい場合
→ 30代は20代より副業を行っている
・オッズ比が1より大きいかつ信頼区間の下限値が1より大きい場合
→ 20代は30代より副業を行っている
オッズ比を求めるならStaatAppで!
統計アプリStaatAppを用いれば,Excelを用いるより簡単にクロス集計表の作成やオッズ比,オッズ比の信頼区間を算出することができます.
オッズ比以外にも医療分野で使用される様々な統計解析が可能です.
基本機能は無料なので,気軽にダウンロードしてお使いください.
》StaatAppで行うクロス集計表の分析
》統計解析アプリStaatApp
オッズ比の活用例
オッズ比は結果に対して要因が複数ある場合に,要因が結果に及ぼしている影響の大きさを比較するために使われることが多いです.
副業に関する調査結果の例で,調査項目に性別という項目があったとします.副業の有無に対して性別の1つの要因としてクロス集計表を作成してオッズ比を算出してみます.
上記の図のように性別を要因とするオッズ比は4.99..であることが分かりました.
年齢を要因としてオッズ比と比較すると性別を要因とするオッズ比の値が大きいことが分かります.このことから副業の有無に対して,年齢より性別がより大きな影響を与えているということが言えます.
性別を要因とするオッズ比の信頼区間の上限値・下限値ともに1以上であるため,副業の有無に性別は影響しているといった結論を得ることができます.
オッズ比とリスク比について
クロス集計表を分析する際の指標として,リスク比というのがあります.
リスク比とは要因のグループ間のリスクを比較した値です.副業調査の例では以下のように計算した値になります.
シート内で用いた計算式は以下のようになります.
・E4セルの入力式:=C4/(C4+D4)
・E5セルの入力式:=C5/(C5+D5)
・H3セルの入力式:=E4/E5
計算式からわかるように,20代の副業率(リスク)はYesの人数/全体の人数で求めることができます.同様に30代の副業率を計算して,20代の副業率/30代の副業率で求められる値がリスク比になります.
例題におけるリスク比1.91..という値は,「30代と比較して20代の副業をしている割合は約1.9倍高い」ということを意味しています.
オッズ比2.22という値は,リスク比のような解釈を行うことはできません.オッズ比はどれだけ影響を及ぼしているかの目安でしかなく,オッズ比の活用例で説明した他の要因との順序を決めるために使われます.
リスク比においてもオッズ比と同様に他の要因との順序を決めるために使うことができます.しかし,一般的にクロス集計表の分析ではオッズ比が使われることが多いです.
リスク比はデータの調査方法(標本の抽出方法)によっては使えない場合があります.例えば,調査する際に「副業している20人と副業していない20人」を対象とするように,予め分かっている結果ごとに人数を決めて調査(ケースコントロール研究)する場合は使うことができません.
リスク比の値は標本に依存するため,結果ごとに調査人数として設定した値によって求められるリスク比が変わってしまうためです.
オッズ比とロジスティック回帰
ロジスティック回帰は結果(目的変数)が質的変数で,要因(説明変数)が複数ある場合に用いる分析手法になります.ロジスティック回帰では,結果に対する複数要因の影響度を分析することができます.
結果に対する複数要因の影響度の分析は,オッズ比を用いても行うことができます.しかし,オッズ比では正確に影響度の順位付ができない場合があります.
複数要因でお互いに相関が見られる場合,オッズ比の大きさの順位が影響度を順位を示さなくなります.要因間での相関は要因同士のクロス集計表を作成してオッズ比を求めることで判断することができます.
以上のことから,複数要因ある場合の影響度を分析する際は,ロジスティック回帰を使う方が影響度を正しく判断することができると言えます.ただし,ロジスティック回帰は計算が複雑でExcelなどで簡単に行うことができないといったデメリットがあります.
クロス集計表の分析方法
クロス集計表の分析方法には,オッズ比の他にカイ二乗検定やコレスポンデンス分析があります.オッズ比との違いや分析方法の選び方は以下のページにて解説しています.